291
 Capa

Bioinformatica da Biologia à Flexibilidade Molecular

Embed Size (px)

DESCRIPTION

Bioinformática: da Biologia à Flexibilidade Molecular emprega umadefinição abrangente para bioinformática, envolvendo qualquer técnicacomputacional aplicada ao estudo de sistemas biológicos (como o próprio nomesugere). Busca, por conseguinte, oferecer uma percepção multidisciplinar (ou talvezjá estejamos beirando a transdisciplinaridade?) da área, abordando tanto aspectosrelacionados a sequências de nucleotídeos e aminoácidos quanto a estrutura edinâmica de proteínas. Adicionalmente, considerando que técnicas experimentaisbaseadas no uso de computadores devem, idealmente, ter seus resultadoscomparados a técnicas experimentais não-computacionais, este livro também incluicapítulos com algumas das técnicas experimentais mais frequentementeempregadas na validação dos números que os programas nos oferecem.Hugo Verli

Citation preview

  • Capa

  • Ficha catalogrfica elaborada por Rosalia Pomar Camargo CRB 856/10

    B615 Bioinformtica da Biologia flexibilidade

    molecular / organizao de Hugo Verli. -- Porto Alegre , 2014.

    282 p. : il.

    1. Bioinformtica 2. Biologia Molecular

    CDU 575.112

  • Esta obra foi licenciada sob uma LicenaCreative Commons Atribuio-No Comercial-Sem Derivados 3.0 No Adaptada.

    Elaborao de imagens

    Pablo Ricardo [email protected]

    Reviso de texto

    Liana Guimares [email protected]

  • Contedos

    Apresentao .............................................................................................................

    Autores ........................................................................................................................

    Agradecimentos ........................................................................................................

    Captulo 1: O que bioinformtica? .....................................................................

    Captulo 2: Nveis de informao biolgica .........................................................

    Captulo 3: Alinhamentos ........................................................................................

    Captulo 4: Projetos genoma ..................................................................................

    Captulo 5: Filogenia ................................................................................................

    Captulo 6: Biologia de sistemas ............................................................................

    Captulo 7: Modelos tridimensionais .....................................................................

    Captulo 8: Dinmica molecular .............................................................................

    Captulo 9: Atracamento ..........................................................................................

    Captulo 10: Dicroismo circular ..............................................................................

    Captulo 11: Infravermelho .....................................................................................

    Captulo 12: RMN ......................................................................................................

    Captulo 13: Cristalografia ......................................................................................

    vi

    viii

    ix

    1

    13

    38

    62

    80

    115

    147

    172

    188

    209

    220

    236

    251

  • Apresentao

    A ideia deste livro surgiu a partir da minha experincia pessoal com duas disciplinasem bioinformtica, uma para o curso de graduao em Biomedicina e uma para oPrograma de Ps-Graduao em Biologia Celular e Molecular do Centro deBiotecnologia, ambos na Universidade Federal do Rio Grande do Sul.

    Tanto para formao em nvel de graduao quanto ps-graduao, desde cedo medeparei com uma ausncia quase total de materiais didticos em portugus (e naci-onais!), de perfil mais geral, aplicvel a cursos de graduao, com poucas eimportantes excesses, que devem ser mencionadas pelo seu papel pioneiro, dentreas quais destaco:

    MORGON, Nelson H.; COUTINHO, K. Mtodos de Qumica Terica e Modelagem Molecular. SoPaulo: Editora Livraria da Fsica, 2007.

    MIR, Luis Genmica. So Paulo: Atheneu, 2004.

    primeira vista, qumica terica e bioinformtica so assuntos sem correlao. E,de fato, as pesquisas nestas reas "puras" frequentemente apresentam pouca ounenhuma sobreposio. De um lado, temos o estudo das propriedades estruturais eeletrnicas de molculas e, de outro, o estudo de sequncias de nucleotdeos, ami-nocidos e a busca por assinalamento de funes a estas sequncias. H, assim,uma aparente separao entre, por exemplo, campos de fora e rvores Bayesia-nas. Contudo, esta separao apenas aparente, tendo em vista que a manifesta-o da funo gnica passa por estruturas tridimensionais de biomolculas. Umpolimorfismo de nucleotdeo nico acarreta em uma mudana na conformao e di-nmica de uma protena, o que por sua vez pode interferir em sua funo. Por outrolado, a flexibilidade de regies de protenas pode muitas vezes ser relacionada aeventos evolutivos, ampliando nosso entendimento do sistema em estudo e permi-tindo, assim, a realizao de extrapolaes a sistemas ortlogos ou parlogos.

    Assim, Bioinformtica: da Biologia Flexibilidade Molecular emprega umadefinio abrangente para bioinformtica, envolvendo qualquer tcnicacomputacional aplicada ao estudo de sistemas biolgicos (como o prprio nomesugere). Busca, por conseguinte, oferecer uma percepo multidisciplinar (ou talvezj estejamos beirando a transdisciplinaridade?) da rea, abordando tanto aspectosrelacionados a sequncias de nucleotdeos e aminocidos quanto a estrutura edinmica de protenas. Adicionalmente, considerando que tcnicas experimentaisbaseadas no uso de computadores devem, idealmente, ter seus resultadoscomparados a tcnicas experimentais no-computacionais, este livro tambm incluicaptulos com algumas das tcnicas experimentais mais frequentementeempregadas na validao dos nmeros que os programas nos oferecem.

    Nesta viso, de certa forma holstica, buscamos abordar no somente cidos nu-cleicos e protenas, mas carboidratos e membranas biolgicas. exceo do ltimo,todos so agrupados como biopolmeros buscando facilitar a construo de relaesentre monmeros formadores, suas conexes e as caractersticas dos polmeros re-sultantes. Afinal de contas, todas as clulas possuem membranas, e 2/3 das prote-

  • nas de eucariotos so glicosiladas. Assim, busca-se oferecer ao leitor uma percep-o mais prxima da importncia de todas estas biomolculas para a vida e, emmuitos casos, sua participao em processos patolgicos.

    A linguagem escolhida para este material foi focada nas reas biolgicas e da sade,tendo em vista que estas compreendem talvez o maior volume de problemas alvoabordados por estas tcnicas. Adicionalmente, destaque foi dado na aplicao dasferramentas em detrimento do esmiuamento de teoria, cdigos, metodologias eimplementaes, para as quais um grande nmero de livros mais avanados eespecficos est disponvel. Em contrapartida, esta linguagem pode contribuir paraque alunos de cursos de reas no-biolgicas visualizem o problema por um focodistinto, aproximando-os assim do problema alvo.

    Cada captulo foi portanto organizado com um foco principal na formao emBioinformtica para cursos de graduao. H, contudo, diversas inseres ao longodo texto, em vermelho e fonte diferente, que buscam oferecer detalhes mais avanados,potencialmente teis a alunos de ps-graduao. Ao final, a definio dos concei-tos-chave de cada captulo foi includa. Tal foco na graduao nos levou a maximizara traduo de expresses do ingls para o portugus, mencionando sempre a ex-presso inglesa original, para fins de referncia. Contudo, em vrios casos, a ampli-tude do uso de expresses originadas no ingls nos levou a mant-las no texto, poisa traduo no teria eco nas demais fontes de leitura na rea. Outra escolha envol-veu a omisso de endereos na web, em decorrncia de sua frequente modificao.Contudo, a partir do nome das ferramentas, no deve haver dificuldades para queos leitores identifiquem-nas pelos buscadores comuns na internet.

    Embora tenhamos nos dedicado a empregar uma linguagem geral e acessvel, creioque este esforo estivesse fadado a ser incompleto desde seu incio em decorrnciada amplitude de reas que compe a bioinformtica. Assim, alguns captulos serode leitura mais fcil para alunos de cursos com maior formao em bioqumica, ou-tros em biologia molecular, ou ainda em programao. Vejo este esforo de cons-truo de uma linguagem comum para a rea como uma obra em constantedesenvolvimento e, caso o material seja de proveito para vocs, certamente nosdedicaremos a evolu-lo em uma prxima edio.

    Todo o livro foi organizado para ser aproveitado de forma digital, principalmente emtablets. Fontes maiores foram empregadas para que a leitura fosse mais fcil e me-nos cansativa nestas telas. E a distribuio do material, gratuita, para um acesso omais democrtico possvel entre os estudantes.

    Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser teis,contribuindo para sua aproximao bioinformtica, qui incentive-os a se apro-fundarem na rea, agradeo a todos os que contribuiram para a elaborao destematerial. Sem eles, seu tempo, dedicao, excelncia e experincia, todo este es-foro no seria possvel.

    Hugo Verli

  • Autores

    Bruno Csar FeltesCentro de Biotecnologia, UFRGS

    Camila S. de MagalhesPlo de Xerm, UFRJ

    Charley Christian StaatsCentro de Biotecnologia, UFRGS

    Dennis Maletich JunqueiraDepto Gentica, UFRGS

    Diego BonattoCentro de Biotecnologia, UFRGS

    Edwin A. YatesInstituto de Biologia Integrativa, Universidade de

    Liverpool

    Fabio Lima CustdioLaboratrio Nacional de Computao Cientfica

    Fernanda Rabaioli da SilvaCentro de Biotecnologia, UFRGS

    Fernando V. MalufCentro de Inovao em Biodiversidade e Frmacos,

    IFSC - USP

    Glaucius OlivaCentro de Inovao em Biodiversidade e Frmacos,

    IFSC - USP

    Gregrio K. RochaLaboratrio Nacional de Computao Cientfica

    Guilherme Loss de MoraisLaboratrio Nacional de Computao Cientfica

    Helena B. NaderDepartamento de Bioqumica, Unifesp

    Hugo VerliCentro de Biotecnologia, UFRGS

    Isabella A. GuedesLaboratrio Nacional de Computao Cientfica

    Ivarne L. S. TersariolDepartamento de Bioqumica, Unifesp

    Joo Renato C. MunizGrupo de Biotecnologia Molecular, IFSC - USP

    Joice de Faria PoloniCentro de Biotecnologia, UFRGS

    Laurent E. DardenneLaboratrio Nacional de Computao Cientfica

    Lus Maurcio T. R. LimaFaculdade de Farmcia, UFRJ

    Marcelo A. LimaDepartamento de Bioqumica, Unifesp

    Marcius da Silva AlmeidaInstituto de Bioqumica Mdica, UFRJ

    Priscila V. S. Z. CaprilesPPG Modelagem Computacional, UFJF

    Raphael TrevizaniLaboratrio Nacional de Computao Cientfica

    Rafael V. C. GuidoCentro de Inovao em Biodiversidade e Frmacos,

    IFSC - USP

    Rodrigo Ligabue BraunCentro de Biotecnologia, UFRGS

    Rogrio MargisCentro de Biotecnologia, UFRGS

    Yraima CordeiroFaculdade de Farmcia, UFRJ

  • Agradecimentos

    O esforo de elaborao deste livro no seria possvel sem a dedicao de todos osautores. Por isso agradeo inicialmente a todos que contriburam para este materiale acreditaram na proposta de um material gratuito e digital, em sua origem. Talesforo implicou em meses de trabalho gratuito, para o benefcio dos alunos.

    Agradeo especificamente ao Pablo, Rodrigo e Liana que, gastaram incontveishoras na elaborao de figuras e reviso do texto.

    Este livro fruto da excelncia acadmica de seus autores, originada de anosdedicados atividade cientfica no mais alto nvel. E tal atividade s foi possvelatravs do fomento de rgo como CNPq, CAPES, FAPERGS, FAPESP e FAPERJ aosquais, em nome de todos os autores, agradeo.

    Este reconhecimento se estende s Universidades e Institutos de Pesquisa nas quaisos autores esto sediados, com seus apoios fsicos, logsticos, administrativos e fi-nanceiros. Nominalmente, estas instituies incluem: UFRGS, UFRJ, Universidade deLiverpool, LNCC, Unifesp, IFSC-USP e UFJF.

  • Hugo Verli

    1. O que Bioinformtica?

    Gregrio de Matos Guerra (1636-1696)

    1.1. Introduo

    1.2. Origens

    1.3. Problemas alvo

    1.4. Tendncias e desafios

    1.1. Introduo

    Gregrio de Matos, poeta brasileiro queviveu no sculo XVII, h quase 400 anosapresentou, na frase de epgrafe deste cap-tulo, seu entendimento sobre a indissociabili-dade das partes para compreenso do todo.No nosso caso, o todo a bioinformtica. Aspartes, contudo, no so to bvias quanto sepossa imaginar em um primeiro momento.Tampouco h consenso sobre estas. Assim,nossa discusso sobre o que bioinformticano pretende estabelecer definies rgidas,mas guias para que o leitor entenda o quocomplexa e dinmica esta jovem cincia.

    Esta complexidade usualmente nospassa despercebida. Por exemplo, quandopensamos no impacto do projeto genoma hu-mano, uma das principais implicaes a me-lhoria dos processos teraputicos acessveis populao. Mas a identificao de um novogene ou mutao em um gene conhecido, pormais que seja associado a um processo pato-lgico, est a uma grande distncia de um no-vo frmaco. A partir da sequncia, oparadigma mais moderno para desenvolvi-mento de novos frmacos passa pela carac-terizao da estrutura tridimensional da

    protena codificada. Esta estrutura entoempregada para guiar o planejamento racio-nal de novos compostos, como se um chavei-ro construsse uma chave (o frmaco) a partirda fechadura. Por mais que a analogia sejasimples, ainda serve como base para algumasdas mais frequentes estratgias de planeja-mento de frmacos. E, embora a ideia de queeste processo flexvel, e no rgido (maiscomo uma mo encaixando em uma luva,sendo a mo o frmaco e a luva o receptor)date da dcada de 1960, so processos tocomplexos que demoramos em torno de 15anos para lanar um novo frmaco no mer-cado (e este tempo no est diminuindo).

    Assim, ao invs de procurar definiesrestritivas, este livro se prope a empregardefinies amplas, que sirvam de suporte pa-ra um entendimendo da grande gama de po-tencialidades e aplicaes da bioinformtica,buscando suportar inclusive futuras aplica-es da metodologia, ainda em desenvolvi-mento ou por serem desenvolvidas.

    Ao mesmo tempo que sequncias codi-ficantes geram seus efeitos biolgicos comoestruturas tridimensionais, o estudo destaspode e muito se beneficiar do estudo de se-quncias de protenas relacionadas (porexemplo, alas flexveis tendem a apresentaruma elevada variabilidade filogentica). Mes-mo o estudo de sequncias no codificantespode se beneficiar do conhecimento de estru-turas tridimensionais, visto que a regulaode sua expresso realizada por fatores detranscrio proteicos. Assim, h uma retro-alimentao entre as informaes originadasem sequncias biolgicas e em suas respecti-vas estruturas 3D.

    Em linhas gerais, este livro parte do en-tendimento de que a bioinformtica se refere

    O todo sem a parte no todo,A parte sem o todo no parte,Mas se a parte o faz todo, sendo parte,No se diga, que parte, sendo todo.

  • 1. O que Bioinformtica?

    ao emprego de ferramentas computacionaisno estudo de problemas e questes biolgi-cas, abrangendo tambm as aplicaes rela-cionadas sade humana como oplanejamento de novos frmacos.

    Neste caminho, da sequncia de nucleo-tdeos at estruturas proteicas, alcanandopor fim frmacos, diversas reas do conheci-mento esto envolvidas. Biologia molecular,biologia celular, bioqumica, qumica, fsica ecomputao so talvez as principais grandesreas do saber envolvidas nesse processo,cada uma contribuindo com diversas especia-lidades.

    1.2. Origens

    O que apresentaremos neste livro comobioinformtica pode ser separado em duasgrandes vertentes:

    i) a bioinformtica tradicional, ou cls-sica (pela primazia do nome bioinfor-mtica), que aborda principalmenteproblemas relacionados a sequncias denucleotdeos e aminocidos, eii) a bioinformtica estrutural, que a-borda questes biolgicas de um pontode vista tridimensional, abrangendo amaior parte das tcnicas compreendidaspela qumica computacional ou modela-gem molecular.

    Podemos traar como momento chavepara ambas as vertentes da bioinformtica oincio da dcada de 1950, quando a revistaNature publicou o trabalho clssico sobre aestrutura em hlice da molcula de DNA porJames Watson e Francis Crick (Figura 1-1).Neste momento, as bases moleculares para oentendimento estrutural da replicao e tra-duo do material gentico foram apresenta-das, permitindo-nos entender como aquela"sequncia de letras" (as bases do DNA) seorganizam tridimensionalmente.

    Este trabalho, contudo, deve ser vistocomo parte de um momento histrico, com-posto por diversas contribuies fundamen-tais para o nosso entendimento de molculasbiolgicas e suas funes. Dentre estas des-

    tacam-se os trabalhos de Linus Pauling eRobert Corey, no incio da dcada de 1950, ede Gopalasamudram N. Ramachandran, noincio da dcada de 1960, que ofereceram asbases para a compreenso da estrutura tridi-mensional de protenas.

    Desde estes trabalhos at a primeiravez em que se relatou o uso de programas decomputadores para visualizar estruturas tri-dimensionais de molculas passaram-se maisde 10 anos quando, em 1966, Cyrus Levinthalpublica na revista Scientific American o tra-balho desenvolvido no MassachusettsInstitute of Technology por John Ward eRobert Stotz (Figura 2-1).

    Ainda nesta dcada se d o primeiro es-foro de sistematizao do conhecimentoacerca da estrutura tridimensional dos efeto-res da informao gentica, as protenas, em1965, com o Atlas of Protein Sequence andStructure, organizado por diversos autores,dentre os quais destacaremos MargaretDayhoff.

    Este destaque se deve ao fato do papel-chave exercido pela Dra. Dayhoff na forma-o das razes do que entendemos hoje porbioinformtica, tanto em sua faceta voltada

    Figura 1-1: Watson e Crick em frente a ummodelo da hlice de DNA. CavendishLaboratory, Universidade de Cambridge, 1953.

  • 1. O que Bioinformtica?

    para sequncias quanto para estruturas. Foiuma das pioneiras no uso de computadorespara o estudo de biomolculas, incluindo tan-to cidos nucleicos quanto protenas. Porexemplo, ela que inicia o uso da representa-o de uma nica letra para descrever cadaaminocido (Tabela 1-1), ao invs das usuaistrs letras, em uma poca em que os dadoseram armazenados em cartes perfurados(Figura 3-1). Desenvolveu as primeiras matri-zes de substituio e fez importantes contri-buies no desenvolvimento dos estudosfilogenticos. Tambm teve participao im-portante no desenvolvimento de mtodospara o estudo de molculas por cristalografiade raios-X (como veremos no captulo 13).

    Com o desenvolvimento de computado-res mais poderosos e com o avano no en-tendimento dos determinantes da estrutura eda dinmica proteica, tornam-se possveis osprimeiros estudos acerca da dinmica e doenovelamento de protenas por simulaes dedinmica molecular por Michael Levitt e AriehWarshel, nos anos de 1970, estudos estesagraciados com o prmio Nobel de Qumicaem 2013 (Figura 4-1).

    A partir dos trabalhos destes e de ou-tros pesquisadores, diversos avanos foramfeitos progressivamente nos anos que se se-guiram, tanto no entendimento de biomol-culas quanto no emprego de tcnicascomputacionais para retroalimentar este en-tendimento. Por exemplo, o aumento na ob-teno de informaes de alta qualidade

    sobre a estrutura 3D de biomolculas vemservindo de suporte para o desenvolvimentode campos de fora cada vez mais precisos,enquanto novas abordagens vm possibilitan-do o alinhamento de sequncias cada vezmais distantes evolutivamente.

    Contudo talvez possamos afirmar que, apartir destas bases, os maiores impactos darea na cincia estejam se delineando nesteexato perodo da histria, em que dois impor-tantes fatores se manifestam: o avano (ebarateamento) no poder computacional e osprojetos genoma.

    Computadores cada vez mais rpidos emais baratos nos permitem abordar proble-mas, literalmente, inimaginveis h poucosanos. Os mtodos e a dimenso dos proble-mas abordados por um aluno de iniciao ci-entfica sero, em sua maioria, totalmenteobsoletos ao final de seu doutoramento

    Figura 2-1: Primeiro programa de visualizaoda estrutura 3D de molculas, em fotografiapublicada na revista Scientific American,em 1966.

    Aminocido

    Alanina Ala ACistena Cys C

    c. asprtico Asp Dc. glutmico Glu EFenilalanina Phe FGlicina Gly GHistidina His HIsoleucina Ile ILisina Lys KLeucina Leu LMetionina Met MAsparagina Asn NProlina Pro P

    Arginina Arg RSerina Ser STreonina Thr TValina Val V

    Triptofano Trp WTirosina Tyr Y

    Glutamina Gln Q

    Tabela 1-1: Nomes dos 20 aminocidos codifi-cadores de protenas junto a suas represen-taes em 1 e 3 letras.

    Representaode 3 letras

    Representaode 1 letra

  • 1. O que Bioinformtica?

    (considerado o mesmo nvel de impacto dosveculos de divulgao). A cada ano que passapodemos abordar problemas mais comple-xos, de forma mais completa, e mais pesqui-sadores com menos recursos podemtrabalhar nestas reas de pesquisa, o quetorna a bioinformtica uma das reas do co-nhecimento mais acessveis para pesquisado-res em incio de carreira.

    Em contrapartida, esta situao acarre-ta na necessidade de atualizao e renovaodos procedimentos computacionais constan-temente para nos mantermos competitivosna comunidade cientfica da rea. O trabalhoque algum tenha publicado com simulaespor dinmica molecular (captulo 8) algunsanos atrs, com uma simulao de, digamos,10 ns, hoje estaria totalmente desatualizado,exigindo no mnimo uma ordem de grandeza amais (idealmente, com replicatas e/ou condi-es adicionais como controle). Como conse-quncia, as concluses obtidas em umtrabalho no necessariamente se manteriamem um novo trabalho. Similarmente, uma r-vore filogentica obtida a partir de um deter-minado alinhamento e matriz de pontuao h20 anos poderia ser diferente hoje, com fer-ramentas mais robustas de alinhamento (co-mo ser visto no captulo 3). Esta umasituao bastante desafiadora, assim comouma grande oportunidade, para os futuros bi-oinformatas.

    Mas esta situao por si no suficiente

    para o aumento explosivo do emprego de es-tratgias computacionais no estudo de siste-mas biolgicos, o que principalmente devidoao projeto Genoma Humano. A partir deste, eda popularizao de outros projetos genoma(captulo 4), criou-se um gigantesco e cres-cente volume de sequncias de genes cujasrelaes evolutivas e funcionais precisam serelucidadas, como ponto de partida para novosdesenvolvimentos teraputicos. Hoje, pos-svel identificar um novo candidato a receptoralvo de novos frmacos a partir de organis-mos muito distantes evolutivamente de ns,comoleveduras,bactriasoumesmoplantas.

    O crescimento deste volume de infor-maes ainda est longe de cessar. Estudosde transcriptoma, metaboloma ou glicomaainda tm muito a agregar no nosso conheci-mento do funcionamento de sistemas biol-gicos, potencializando tanto aplicaesteraputicas quanto biotecnolgicas. Contudo,isto exigir cada vez mais avanos da bioin-formtica, seja em hardware, software ou emestratgias de anlise de dados e construode modelos.

    Um exemplo neste sentido envolve a gi-gantesca defasagem entre nossa capacidadede lidar com sequncias e com estruturas 3D.Enquanto em um computador pessoal sim-ples podemos realizar alinhamentos com al-

    Figura 3-1: IBM 7090, computador que Mar-garet Dayhoff utilizou no incio de seustrabalhos (NASA Ames Resarch Center, 1961).

    Figura 4-1: Agraciados pelo prmio Nobel dequmica de 2013, os Professores MartinKarplus, Michael Levitt e Arieh Warshel.

  • 1. O que Bioinformtica?

    gumas centenas de sequncias sem maioresdificuldades, localmente ou na web, depen-dendo do mtodo, e recebendo a respostaquase que imediatamente, para realizar umasimulao por dinmica molecular de umanica protena precisaramos, neste mesmocomputador, de alguns meses.

    Um ltimo aspecto importante nestacontextualizao inicial da bioinformtica,dentro da proposta apresentada por este li-vro, diz respeito importncia relativa das di-ferentes biomolculas na manifestao dainformao gentica, mantendo a homeosta-sia e servindo como alvo de modulao far-macolgica ou emprego biotecnolgico.Tradicionalmente, os cidos nucleicos e asprotenas receberam a maior ateno en-quanto alvos da bioinformtica, os primeiroscomo repositrios da informao biolgica eas ltimas como efetores desta informao.Esta percepo, contudo, vem sendo pro-gressivamente relativizada. Membranas ecarboidratos, a despeito de no estarem co-dificados diretamente no genoma (no h umcdon para um fosfolipdeo ou para um mo-nossacardeo), so fundamentais homeos-tasia da grande maioria dos organismos emtodos os domnios da vida. E entender estespapis vem se tornando um importante alvoda bioinformtica.

    1.3. Problemas alvo

    Considerando o tipo de informao ma-nipulada, os problemas e questes abordadospela bioinformtica podem ser agrupados en-tre aqueles relacionados a sequncias de bio-molculas e aqueles relacionados estruturade biomolculas (Figura 5-1). primeira vista,considerando que de forma geral estruturasde protenas so determinadas por seus ge-nes, poderamos imaginar que lidar com es-truturas 3D seria redundante a manipularsequncias, conjuntos de informaes 1D. Estapercepo limitada e no se configura comoverdade para diversas questes. Na verdade,existem aspectos nicos em cada conjunto deinformao, no diretamente transferveispara o outro.

    Inicialmente, como veremos adiante(item 1.4 e captulo 2), o enovelamento deprotenas um fenmeno extremamentecomplexo e ainda no totalmente compreen-dido, de forma que no somos capazes detransformar uma sequncia linear de amino-cidos (codificada por seu gene) em uma es-trutura 3D (salvo para algumas situaesespecficas, que sero vistas ao longo do li-vro).

    Outro aspecto importante que o eno-velamento de protenas, em muitas situaes,depende de mais do que sua sequncia deaminocidos, envolvendo aspectos como oambiente e o local onde a protena estar naclula ou organismo, a ocorrncia de modifi-cao co- ou ps-traducionais e a sua intera-o com chaperonas. Para ilustrar o quantoeste fenmeno complexo, embora diversassequncias com identidade mnima possamter estruturas 3D extremamente parecidas,em alguns casos a troca de um ou poucos re-sduos de aminocidos pode modificar total-mente a funo, chegando at a interferir naformatridimensionalqueumaprotenaadota.

    Em contrapartida, algumas informaespresentes em sequncias gnicas ou mesmopeptdicas no so necessariamente observ-veis em estruturas tridimensionais. Porexemplo, regies promotoras ou reguladorasda expresso gnica so facilmente descritascomo informaes 1D, e peptdeos sinal ou n-trons esto normalmente ausentes nas for-mas nativas de protenas, sendo maisfacilmente observveis por sequncias dasbiomolculas em questo.

    Adicionalmente, estruturas 3D de mo-lculas so formas muito mais complexas deserem manipuladas que sequncias 1D, o queagrega uma srie de dificuldades nos estudosde bioinformtica. Assim, diversas tarefastendem a ser muito simplificadas (ou mesmode outra forma no seriam possveis atual-mente) quando trabalhamos com sequnciasem vez de estruturas. Por exemplo, a identifi-cao de uma assinatura para modificaops-traducional muito mais gil em umasequncia do que em um conjunto de milharesde tomos distribudos em um espao tridi-

  • 1. O que Bioinformtica?

    mensional.Por fim, talvez o motivo mais prtico

    para separarmos as duas abordagens se re-fere facilidade de obteno das informa-es. Os mtodos experimentais parasequenciamento de cidos nucleicos estomuito mais avanados do que os mtodospara determinao da estrutura 3D de bio-molculas. A diferena de capacidade de de-terminao dos dois conjuntos de dados deordens de grandeza.

    Questes relacionadas a sequncias

    A manipulao de sequncias menoscustosa computacionalmente, nos possibili-tando lidar com genomas inteiros. Isto permi-te realizar anlises em indivduos ou mesmopopulaes de indivduos, nos aproximando doentendimendo dos organismos em sua com-plexidade biolgica. Podemos traar a histriaevolutiva de um conjunto de organismos ouconstruir redes de interao entre centenasou milhares de molculas de um determinado

    organismo, tecido ou tipo celular. Em linhasgerais, os objetos de estudo relacionados asequncias de biomolculas incluem:

    i) comparaes entre sequncias (ali-nhamento);ii) identificao de padres em se-quncias (assinaturas);iii) caracterizao de relaes evoluti-vas (filogenia);iv) construo e anotao de geno-mas;v) construo de redes (biologia desistemas).

    Vale destacar que estas anlises podem receber acontribuio de estudos envolvendo a estrutura das bi-omolculas de interesse ou mesmo ser validadas porestas. Por exemplo, resduos conservados evolutiva-mente possuem grande chance de possurem papelfuncional (como atuando na catlise) ou estrutural(estabilizando a estutura proteica). Assim, compararum alinhamento estrutura 3D pode tanto explicarquanto oferecer novas abordagens e consideraes ao

    Figura 5-1: Representao de algumas das principais reas da bioinformtica. As metodologiasque lidam majoritariamente com estruturas 3D esto representadas em laranja, enquanto asmetodologias envolvidas principalmente com sequncias esto representadas em verde.Devemos lembrar, contudo, que esta separao imperfeita. Por exemplo, a modelagemcomparativa parte de sequncias, a funo de um gene pode ser determinada pela estrutura daprotena associada.

  • 1. O que Bioinformtica?

    significado de conservaes de resduos maiores oumenores em conjuntos de sequncias.

    Questes relacionadas a estruturas

    Ao contrrio da manipulao de se-quncias, estruturas exigem um maior poderde processamento para serem manipuladas.Na prtica, podemos manipular uma ou umpequeno punhado de estruturas simultanea-mente (embora este nmero venha crescendoprogressivamente). Neste caso, o foco costu-ma ser o entendimento de molculas e doseventos mediados por estas, individualmente,incluindo:

    i) obteno de modelos 3D para pro-tenas e outras biomolculas (porexemplo, modelagem comparativa);ii) identificao do modo de interaode molculas (atracamento);iii) seleo de compostos com maiorpotencial de inibio (atracamento);iv) caracterizao da flexibilidade mo-lecular (dinmica molecular);v) avaliao do efeito de mudanas naestrutura e ambiente molecular na di-nmica e funo de biomolculas (din-mica molecular).

    O uso de sequncias para alimentar estudos estru-turais mais comum na construo de modelos tridi-mensionais de protenas a partir de suas sequnciascodificadoras, no mtodo denominado modelagemcomparativa (captulo 7). Contudo, outras relaes ex-tremamente teis podem ser estabelecidas. Por exem-plo, por serem estruturas usualmente flexveis, alastendem a possuir uma maior capacidade de acomodarmutaes ao longo da evoluo. Isto permite umacomparao entre resultados de alinhamentos e, porexemplo, perfis de flexibilidade observveis atravs desimulaes por dinmica molecular.

    1.4. Tendncias e desfios

    Como uma rea em rpido desenvolvi-mento, a bioinformtica exige de seu prati-cante uma constante ateno a novasabordagens, mtodos, requerimentos e ten-dncias. Programas podem se tornar rapida-

    mente ineficientes comparados a novas fer-ramentas ou mesmo obsoletos. Avanos dehardware podem (e na verdade vem fazendoisso) catapultar o nvel de exigncia metodo-lgica pelas revistas de ponta. E h algumasreas em especfico nas quais a comunidadecientfica vem concentrando esforos. So porconseguinte reas de grande impacto poten-cial e grande competio na literatura cient-fica, dentre as quais destacaremos algumasabaixo.

    Processamento em CPU e GPU

    CPUs (Central Processing Units ou uni-dades de processamento central) ou sim-plesmente processadores (ou aindamicroprocessadores) so partes dos compu-tadores responsveis pela execuo das ins-trues estabelecidas pelos programas.Desde seu surgimento em torno da metadedo sculo XX, as CPUs tornaram-se progres-sivamente mais complexas, confiveis, rpi-das e baratas. Esse processo foi previstopioneiramente por Gordon E. Moore, no queficou sendo conhecido desde ento como a leide Moore. Segundo esta lei, o nmero detransistores em um processador (na verdadeem qualquer circuito integrado) dobra aproxi-madamente a cada 2 anos (Figura 6-1). O im-pacto do fenmeno descrito nestaobservao na vida moderna enorme, en-volvendo desde nossos computadores, celu-lares e cmeras digitais at a preciso deestudos climticos (com impacto na preven-o de catstrofes e na agricultura), medicina,engenharia, indstria blica e aeroespacial.Com o aumento da velocidade e barateamen-to das CPUs, podemos a cada ano construirmodelos mais precisos de fenmenos biol-gicos progressivamente mais complexos. Naprtica, o avano da bioinformtica est liga-do intrinsecamente lei de Moore.

    Em uma CPU podemos encontrar nosomente um microprocessador, mas mais deum, o que chamado multi-processamento eestas CPUs de processadores de mltiplosncleos (multi-core processing). Hoje, a gran-de maioria dos processadores empregados

  • 1. O que Bioinformtica?

    em computadores, notebooks e celulares jpossui mltiplos ncleos. Se o programa queestamos utilizando for adaptado para este ti-po de processamento, o clculo poder serdistribudo pelos ncleos de processamento,tornando o clculo significativamente maisrpido. A grande maioria dos aplicativos embioinformtica j possui verses compatveiscom processamento em mltiplos ncleos, edevemos estar atentos escolha destas ver-ses e instalao de forma que essa carac-terstica esteja funcional, sob pena desubutilizao da CPU.

    J GPUs (Graphical Processing Units ouunidades de processamento grfico) so mi-croprocessadores desenvolvidos inicialmentecomo unidades especializadas na manipulaode representaes grficas em computado-res. Esto, assim, normalmente localizadasnas placas de vdeo de nossos computadores.O termo GPU foi popularizado a partir de 1999com o lanamento da placa de vdeoGeForce256, comercializada pela Nvidia.

    O desenvolvimento das GPUs remontaao incio dos anos de 1990, com o aumento doemprego de grficos em 3D nos computado-res e videogames. De fato, alguns dos pri-meiros exemplos de hardware dedicado aoprocessamento em 3D esto associados aconsoles como PlayStation e Nintendo 64.

    Atualmente, enquanto CPUs possuem at emtorno de uma dezena de ncleos de proces-samento, GPUs podem facilmente alcanarcentenas ou mesmo milhares de ncleos deprocessamento, permitindo uma grande ace-lerao na manipulao de polgonos e for-mas geomtricas, encontradas em aplicaes3D (como os jogos) e sua renderizao (Figura7-1). Tal aumento de performance ao dividir acarga de trabalho em um grande nmero dencleos de processamento abriu um grandehorizonte de possibilidades em computaocientfica, implicando em grande aumento navelocidade de manipulao de dados.

    Diversos aplicativos em bioinformticavm sendo portados para trabalhar comGPUs. Desde o alinhamento de sequncias filogenia, do atracamento molecular din-mica molecular, mltiplos pacotes esto dis-ponveis, tanto pagos quanto gratuitos,capazes de explorar a computao em GPU, eeste nmero vem crescendo a cada ano,apontando para uma nova tendncia na rea.O usurio deve, contudo, observar seu pro-blema alvo, pois a acelerao fornecida pelaGPU depender das caractersticas do pro-blema em questo e da eficincia e portabili-dade do cdigo empregado.

    A combinao de CPUs e GPUs com

    Figura 6-1: Representao da lei de Moore, in-dicando o aumento no nmero de transistoresem microprocessadores no perodo de 1971 a2011. Adaptada de William Wegman, 2011(Creative Commons).

    Figura 7-1: Representao dos ncleos deprocessamento em CPUs e GPUs. O grandenmero de ncleos em GPUs permite a reali-zao de clculos complexos rapidamente.

  • 1. O que Bioinformtica?

    mltiplos ncleos fez com que a capacidadede processamento de alguns supercomputa-dores de h alguns anos j esteja disponvelpara computadores pessoais, nos chamadossupercomputadores pessoais.

    Predies a partir de sequncias

    Quando estudamos uma sequncia denucleotdeos de DNA desconhecida impor-tante determinar seu papel funcional, porexemplo, se codificante de protenas ou no.E, sendo codificante, qual protena produzidaao final da traduo e qual sua funo. Taispredies so realizadas a partir de algorit-mos construdos a partir de bancos de dadosexistentes, relacionando determinada se-quncia a caractersticas e propriedades es-pecficas. Contudo, somente uma pequenaquantidade de organismos teve seu genomasequenciado at o momento e, destes, so-mente uma pequena parte de genes teve suafuno determinada experimentalmente. De-vemos, portanto, lembrar que as prediesdestes modelos esto relacionadas a quocompletos foram os bancos de dados que osbasearam. E que estes esto em contnuoavano (ou seja, uma predio feita h 5 anosno necessariamente ser igual a uma predi-o hoje que, por sua vez, pode ser diferentede uma predio de funo gnica daqui a 5anos - discutiremos no captulo 3 alguns indi-cadores da qualidade dessas associaes).

    Predio de energia livre

    Os fenmenos moleculares so regidospela termodinmica, tanto para reaes qu-micas na sntese de um novo frmaco quanto ao da DNA polimerase ou ao enovela-mento de protenas. Entender termos comoentropia, entalpia e energia livre torna-se, as-sim, fundamental na adequada descriodestes fenmenos e, a partir desta, sua pre-viso computacional. Quando a medida destasvariveis se tornar precisa o bastante, pode-remos esperar a substituio de diversos ex-perimentos em bancada por clculos emcomputadores mas, infelizmente, ainda no

    chegamos neste momento.Predies de energia livre tem impacto

    direto na identificao da estrutura 2ria demolculas de RNA, na localizao de regiesdo DNA para ligao de reguladores datranscrio, para a especificidade de enzimaspor substratos e receptores por ligantes oumoduladores (fisiolgicos ou teraputicos, is-to , frmacos). Assim, diversos mtodos fo-ram desenvolvidos para a obteno destasmedidas, tais como a perturbao da energialivre, a integrao termodinmica, a energiade interao linear, a metadinmica e diversasestratgias empricas voltadas ao pareamen-to de nucleotdeos ou atracamento molecular.

    A despeito desta diversidade de estra-tgias, a predio da energia livre em proces-sos moleculares continua sendo um grandedesafio. Em decorrncia do elevado custocomputacional associado a estes clculos, di-ferentes tipos de simplificaes e generaliza-es precisam ser realizadas,comprometendo nossa capacidade de em-preg-los de forma ampla e fidedigna.

    Enovelamento de protenas

    Como veremos adiante no livro, o eno-velamento de protenas um dos processosmais complexos conhecidos pelo ser humano.O nmero de estados conformacionais poss-veis para uma protena pequena gigantesco,dos quais um ou alguns poucos sero obser-vveis em soluo em condies nativas. Osmtodos experimentais usualmente empre-gados para tal, a cristalografia de raios-X e aressonncia magntica nuclear, so mtodoscaros e ainda possuem algumas limitaesimportantes em determinadas situaes,apontando para a Bioinformtica um potenciale importante papel na determinao da es-trutura de biomolculas.

    Mas para que precisamos saber como a estrutura tridimensional de uma determi-nada biomolcula? Esta pergunta possui mui-tas respostas, incluindo a compreenso decomo a natureza evoluiu, como os organis-mos funcionam, como os processos patolgi-

  • 1. O que Bioinformtica?

    cos se desenvolvem (e podem ser tratados) ecomo as enzimas exercem suas funes ca-talticas. Tomemos este ltimo caso comoexemplo.

    Com o entendimento de como protenasse enovelam, ser possvel construir novasprotenas, capazes de adotar formas que anatureza no previu at o momento, enzimasaptas a catalizar reaes de importncia eco-nmica, com menor toxicidade, o que ter porsi impacto ambiental. Ainda, abre-se a possi-bilidade de planejamento racional de enzimase protenas envolvidas na detoxificao dereas. Esta linha de pesquisa est em seu in-cio, e o nmero de grupos de pesquisa dedi-cados ao redor do mundo para trabalhar naengenharia de protenas vem aumentandogradativamente. Mas, infelizmente, ainda nopossuimos uma base terica que nos permitaentender e prever, com preciso e de formaampla, a estrutura 3D de protenas.

    Contudo, esta problemtica vem sendoabordada a cada ano com maior sucesso. Pa-ra protenas com no mnimo em torno de30% de identidade com outras protenas deestrutura 3D j determinada, podem ser obti-dos modelos de qualidade prxima quela demtodos experimentais. Em outros casos,estruturas cristalogrficas podem ser refina-das por mtodos computacionais, agregandoexplicitamente informaes ausentes nos ex-perimentos (como a flexibilidade molecular).Outro exemplo a construo de alas flex-veis, de difcil observao experimental masque podem ser abordadas por diferentes m-todos computacionais.

    Para cidos nucleicos, a construocomputacional de estruturas 3D de molculasde DNA tarefa relativamente simples, queusualmente no requer os custos associadosa experimentos de cristalografia e ressonn-cia magntica. Para molculas de RNA, con-tudo, a elevada flexibilidade traz consigodesafios adicionais. Mesmo assim, em diver-sos casos as estratgias computacionaispossuem vantagens em lidar com molculasmuito flexveis. Talvez o caso mais emblem-tico neste sentido sejam as membranas bio-lgicas. Estas macromolculas biolgicas no

    so observveis nos experimentos usuais ca-pazes de determinar estruturas com resolu-o atmica, embora atravs de simulaespor dinmica molecular tenham suas estru-turas descritas com elevada fidelidade.

    Outro caso em que os mtodos compu-tacionais parecem possuir vantagens em re-lao aos experimentais envolve oscarboidratos. Embora sejam molculas emvrios aspectos mais complexos que prote-nas, carboidratos biolgicos no parecem so-frer enovelamento nem adotar tipos deestrutura 2ria em soluo (embora o faamem ambiente cristalino), o que os torna naprtica um problema estrutural mais simplesque protenas. De fato, vem sendo possvelprever a estrutura de glicanas com graus va-riados de complexidade com grande preciso,um campo no qual os mtodos experimentaispossuem grandes dificuldades em abordar.

    Validao experimental

    Em linhas gerais, mtodos computacio-nais devem ser comparados a dados experi-mentais para validao. Esta afirmao,embora tomada geralmente como um axio-ma, bastante simplista, e no expressa cla-ramente a complexidade e desafio nestatarefa. Alguns pontos especficos incluem:

    i) nem sempre h dados experimentaisdisponveis para validar os clculos e si-mulaes realizados. Por exemplo, este o caso com frequncia para alinha-mentos de sequncias, para relaes fi-logenticas, para predies ab initio daestrutura de protenas e para a descri-o da flexibilidade de biomolculas ob-tidas por dinmica molecular. Nemsempre h fsseis ou outras evidnciasarqueolgicas para validar antepassa-dos evidenciados por estudos filogen-ticos. Por outro lado, no h mtodosexperimentais com resoluo atmica etemporal, de forma que a validao desimulaes por dinmica molecular em grande medida indireta (uma estru-tura obtida por cristalografia nica,sem variao temporal, enquanto os

  • 1. O que Bioinformtica?

    mellifera) aparece como uma hlice emestudos cristalogrficos mas deseno-velada no plasma humano, como podeser confirmado por experimentos de di-croismo circular com fora inica com-patvel com o plasma.

    Assim, a despeito do axioma da exign-cia de validao experimental para estudoscomputacionais, no infrequente que umdado computacional apresente maior preci-so que um dado obtido na bancada. Na reali-dade, um modelo computacional,frequentemente chamado de terico em opo-sio aos mtodos ditos experimentais, no nada alm de um experimento computacionalque, infelizmente, nem sempre tem contra-parte em experimentos de "bancada". E essesadjetivos no carregam consigo qualificaesquanto confiabilidade dos resultados gera-dos.

    1.5. Leitura recomendada

    KHATRI, Purvesh; DRAGHICI, Sorin. OntologicalAnalysis of Gene Expression Data: CurrentTools, Limitations, and Open Problems.Bioinformatics, 21, 3587-3593, 2005.

    MORGON, Nelson H.; COUTINHO, K. Mtodosde Qumica Terica e Modelagem Mo-lecular. So Paulo: Editora Livraria da F-sica, 2007.

    MIR, Luis. Genmica. So Paulo: Atheneu,2004.

    modelos oriundos de ressonncia mag-ntica nuclear correspondem a mdiasdurante o perodo de coleta do dado);ii) os dados experimentais devem seradequados ao estudo computacionalempregado. Assim, se estamos estu-dando a formao de um complexo fr-maco-receptor, resultados in vivodevem ser evitados, enquanto os expe-rimentos in vitro preferidos. Se adminis-tramos um determinado frmaco porvia oral a um camundongo, este frma-co passar por diversos processos far-macocinticos (absoro, distribuio,metabolizao e excreo) que muitoprovavelmente iro interferir na aofrente ao receptor alvo. Portanto, paraestudos de atracamento, dados in vivodevem ser evitados;iii) a margem de erro do dado experi-mental deve ser considerada quandocomparada aos dados computacionais.Frequentemente a margem de erro paraexperimentos na bancada maior quepara aqueles realizados em computa-dores, limitando a extenso da valida-o. Usando novamente o exemplo deestudos de atracamento, se a afinidadeexperimental de um frmaco por seureceptor de 0,11 0,04 M, valorestericos de 97 nM a 105 nM estarocorretos. Por outro lado, frequente-mente os resultados experimentais soexpressos como a menor dose testada,por exemplo, > 5 M. Assim, qualquervalor maior que 5 M ser validado pelodado experimental, o que cria umagrande dificuldade de validao (comocomparar 5 a, digamos, 1.000?);iv) as condies nas quais os experi-mentos foram realizadas devem serobservadas com estrito cuidado. Tem-peratura, contaminantes, sais e concen-traes diferentes daquelas noambiente nativo so frequentementerequeridas por alguns mtodos experi-mentais, e podem interferir nos resulta-dos. Por exemplo, a melitina (principalcomponente do veneno da abelha Apis

  • Hugo Verli

    2. Nveis de Informao Biolgica

    Representao do fluxo de informao em sistemas

    biolgicos.

    2.1. Introduo

    2.2. Macromolculas biolgicas

    2.3. Nveis de organizao

    2.4. Descritores de forma

    2.5. Formas de visualizao

    2.6. Conceitos-chave

    2.1. Introduo

    Por mais que possam apresentar enor-mes diferenas em suas caractersticas osseres vivos, desde bactrias a mamferos,passando por plantas e fungos, so compos-tos aproximadamente pelos mesmos tipos demolculas. Estes compostos incluem prote-nas, cidos nucleicos, lipdeos e carboidratos,molculas nas quais a vida como conhecemos baseada.

    Cada uma destas classes de biomolcu-las apresenta, contudo, enormes variaes deforma, estrutura e funo na natureza, o quepossibilita a gigantesca variedade e complexi-dade de manifestaes da vida em nosso pla-neta. Mesmo em estruturas que no sonormalmente consideradas vivas, como ocaso dos vrus, estas biomolculas so tam-bm encontradas e se mostram essenciais execuo de suas funes, sejam estas pato-lgicas ou no.

    Independentemente da forma pela qual

    a vida se manifesta, a informao que a regeest armazenada nas molculas de DNA.Contudo, tais dados no so usados direta-mente, mas atravs de uma molcula inter-mediria, o RNA (mais precisamente oRNAm), sintetizado por um processo denomi-nado transcrio (uma molcula de cidonucleico transcrita em outra molcula decido nucleico). Esta molcula de RNAm irservir como molde para a sntese de prote-nas, em um processo chamado de traduo(uma molcula de cido nucleico traduzidaem uma molcula de protena). As protenas,assim expressas, iro reger a maioria dos fe-nmenos relacionados funo dos organis-mos e perpetuao da vida (emboradiversos outros processos sejam moduladospor outras biomolculas). Esta informaosegue um sentido to conservado na naturezaque foi convencionado denomin-lo comodogma central da biologia molecular (Figura1-2).

    A importncia do dogma central no en-tendimento da informao e funo biolgicaspode ser exemplificada no fato de que eleaborda os trs tipos mais comuns de mol-culas estudadas por tcnicas de bioinformti-ca, o DNA, o RNA e as protenas,estabelecendo um fluxo de informao uni-versal vida como conhecemos. Adicional-mente, a efetivao da informao gentica,atravs das protenas, acarreta na construoe manuteno de outras biomolculas, igual-mente essenciais ao desenvolvimento da vida,como carboidratos e lipdeos. Em decorrnciade sua elevada massa molecular, protenas,cidos nucleicos, lipdeos agregados emmembranas e carboidratos complexos sochamados de macromolculas.Embora carboidratos e lipdeos no estejam explici-

  • 2. Nveis de Informao Biolgica

    tamente inseridos no dogma central, no devemos mi-nimizar sua importncia. Apesar de por muito tempoestes compostos terem sido reconhecidos simples-mente por papis energticos e estruturais, ambosvm sendo demonstrados como envolvidos em inme-ros fenmenos biolgicos, como na glicosilao deprotenas e na formao de jangadas lipdicas. Estes,por sua vez, podem interferir diretamente na execuoda funo de protenas e na homeostasia dos organis-mos.No somente macromolculas so importantes bi-

    ologicamente. Protenas sintetizam uma infinidade decompostos de baixa massa molecular, ou micromol-culas, que atuam como neurotransmissores, sinaliza-dores e moduladores dos mais variados tiposrepresentando, portanto, diferentes tipos de informa-o em sistemas biolgicos. Por exemplo, a infecodo nosso organismo por bactrias desencadeia umprocesso inflamatrio mediado por derivados lipdicosdenominados prostaglandinas. Para combater micro--organismos competidores, fungos e bactrias produ-zem pequenos compostos com atividade antibitica,muitos destes usados at hoje como frmacos. Desta

    forma, se a bioinformtica se dedica ao estudo, porferramentas computacionais, dos fenmenos relacio-nados vida, o estudo de micromolculas tambmtorna-se foco da bioinformtica ao abordar compostosrelacionados manuteno fisiolgica ou teraputica(neste caso, no planejamento de novos candidatos aagentes teraputicos).

    As tcnicas modernas de bioinformticaso capazes de lidar com todas estas biomo-lculas que, contudo, possuem particularida-des derivadas de suas diferenas qumicas.Tais aspectos devem ser conhecidos de formaa permitir a construo de modelos compu-tacionais mais precisos e adequados ao estu-do dos mais diversos aspectos relacionados vida.

    No h uma forma nica de representaras diferentes molculas biolgicas. Cada es-tratgia de representao possui suas vanta-gens e desvantagens, que devem seravaliadas de acordo com o estudo em anda-mento. Estratgias com menor volume de in-formao associado possuem menor custocomputacional e, portanto, nos permitemavaliar rapidamente grandes quantidades dedados, por exemplo, genomas inteiros de di-ferentes organismos, cada um contendo de-zenas de milhares de protenas. Por outrolado, estratgias com maior volume de infor-mao associado acarretam em custo com-putacional gigantesco nos limitando a, porexemplo, um punhado de protenas, de dois outrs organismos. O trnsito por tal disparida-de um dos grandes desafios atuais para oprofissionalquetrabalhacombioinformtica.

    2.2. Macromolculas biolgicas

    As biomolculas descritas no dogmacentral da biologia molecular, protenas, DNAe RNA, so o que chamamos de biopolmeros,isto , polmeros produzidos pelos seres vi-vos. Somam-se a este grupo de molculas oscarboidratos, que tambm podem ser encon-trados como polmeros em meio biolgico.

    As propriedades de um polmero tor-nam-se consequncia das propriedades desuas unidades monomricas constituintes. Nocaso dos biopolmeros, os monmeros podem

    Figura 1-2: Representao do dogma centralda biologia molecular, no qual o fluxo deinformao em sistemas biolgicos descrito, desde seu armazenamento no DNAat a manifestao da funo biolgica. O es-quema tradicional sofreu a adio do proces-so de enovelamento de de reconhecimentomolecular devido ao seu carter fundamentalpara a manifestao da funo gnica.

  • 2. Nveis de Informao Biolgica

    ser aminocidos, nucleotdeos e monossaca-rdeos. Assim, o conhecimento destas unida-des bsicas ir auxiliar diretamente no estudode suas formas polimricas e, por conseguin-te, das funes biolgicas destes polmerossintetizados na natureza.

    cidos nucleicos

    Os compostos denominados cidosnucleicos so polmeros sintetizados a partirde unidades denominadas nucleotdeos. Osnucleotdeos so formados por trs partesconstituintes: uma base nitrogenada, um car-boidrato e um grupo fosfato. A base nitroge-nada pode ser adenina (A), guanina (G),citosina (C), uracila (U) ou timina (T), enquantoa parte sacardica poder ser -D-ribose (fre-quentemente abreviada simplesmente comoribose, para o RNA) ou a 2-desoxi--D-ribose(usualmente abreviada como desoxirribose,para o DNA) (Figura 2-2). Nas molculas decidos nucleicos, os nucleotdeos so ligadosatravs da denominada ligao fosfodister(ver adiante).

    Quando a base nitrogenada est ligadaao carboidrato, na ausncia do grupo fosfato,os compostos gerados so denominados nu-cleosdeos. Formados por ligao de diferen-tes nucleotdeos -D-ribose temos aadenosina, a guanosina, a citidina, a uridina e a

    timidina. A estes compostos podem ainda seligar diferentes nmeros de grupos fosfato.Assim, a adenosina pode se apresentar mo-nofosfatada (AMP, do ingls adenosinemonophosphate), difosfatada (ADP, do inglsadenosine diphosphate) ou ainda trifosfatada(ATP, do ingls adenosine triphosphate).Conforme veremos adiante, carboidratos apresen-

    tam caractersticas conformacionais especficas, comosua capacidade de deformar seu anel em diferentesestados conformacionais. Esta caracterstica se soma grande flexibilidade da ligao fostodister na criaode um esqueleto bastante flexvel para cidosnucleicos. Em contrapartida a esta flexibilidade da par-te sacardica dos nucleotdeos, cada base nitrogenada essencialmente planar, uma vez que constituem-se deanis aromticos, e portanto apresentam flexibilidadebastante reduzida.

    Protenas

    As protenas so polmeros sintetizadospelas clulas a partir de aminocidos. Sotalvez as biomolculas mais versteis na na-tureza, sendo capazes de adotar uma gigan-tesca possibilidade de arranjostridimensionais, no encontrada nos demaisbiopolmeros. No por acaso, constituem-seno principal produto direto da informao ge-ntica, a partir da traduo do RNAm.

    O genoma codifica diretamente 20 ami-nocidos (22 contando selenocistena e pirro-lisina, que so codificadas por codons deparada) para composio de protenas (Figura3-2), embora outros resduos de aminocidos,no codificados no genoma (Figura 4-2), pos-sam ser sintetizados a partir destes e exercerfunes bastante especficas, como o cido -amino butrico (GABA), um neurotransmissorinibitrio no sistema nervoso central, ou co-mo o resduo cido -carbxi glutmico (GLA),constituinte de diversas protenas plasmti-cas e fundamental na hemostasia.

    Os aminocidos codificados no genomaapresentam algumas caractersticas bem de-finidas e compartilhadas entre si. Todos osresduos apresentam uma regio comum, in-dependente do resduo. Esta regio denomi-nada esqueleto peptdico, e composta pelo

    Figura 2-2: Representao esquemtica deum nucleotdeo e suas variaes na base ni-trogenada e no carboidrato.

  • 2. Nveis de Informao Biolgica

    grupo amino, pelo grupo cido carboxlico epelo tomo de carbono que liga estes doisgrupos, denominado carbono (C). A dife-rena entre estes resduos est no grupa-mento ligado ao C, chamado cadeia lateral(Figura 3-2).Enantimeros so compostos que, diferindo so-

    mente no arranjo de seus tomos no espao (como nocaso de L-Ser e D-Ser), correspondem um imagemespecular do outro (isto , uma o reflexo em um es-pelho da outra).

    exceo da glicina, todos os aminocidos so qui-rais, em decorrncia da presena de quatro substiuin-tes diferentes ligados ao C. Salvo casos especficos,todos os aminocidos quirais so encontrados em so-mente uma forma enantiomrica, L. Como conse-quncia, todas as protenas so quirais, e isto temimplicaes importantes em fenmenos bioqumicos ena prtica teraputica.Dois enantimeros interagem de forma idntica

    com compostos que no sejam quirais. Por exemplo, ainterao de L-Ser e D-Ser com a gua idntica. Em

    Figura 3-2: Estrutura dos aminocidos codificados no genoma, organizados segundo as propri-edades de suas cadeias laterais. No topo o esqueleto peptdico representado como encontra-do dentro de uma protena, tanto em sua forma 2D quanto 3D. Nesta ltima, o grupo R (cadeialateral) est apresentado como uma esfera amarela, enquanto a continuao da cadeia poli-peptdica como esferas verde-escuras. As cadeias laterais esto apresentadas em sua ionizaomais comum, plasmtica.

  • 2. Nveis de Informao Biolgica

    contrapartida, compostos quirais interagem diferente-mente com cada enantimero. Assim, a interao de L-Ser e D-Ser com uma dada protena seria diferente.Assim, se tivermos um frmaco quiral, uma de suasformas enantiomricas ser ativa e a outra provavel-mente inativa, menos ativa ou mesmo txica.O esqueleto peptdico de aminocidos apresenta um

    grupo do tipo cido carboxlico somente em aminoci-dos livres, monomricos, ou na posio terminal daprotena, denominada regio C-terminal (o final da se-quncia polipeptdica). Da mesma forma, s encontra-mos o grupo amino na regio demominada N-terminal(o incio da sequncia polipeptdica). exceo destasextremidades, os grupos amino e carboxlico reagem,dando origem a um grupo amida. Assim, dentro deuma protena, cada aminocido contribui com um umtomo de nitrognio e com uma carbonila para a for-mao de uma amida contida no esqueleto peptdico.

    Os aminocidos frequentemente soagrupados de acordo com as propriedades desuas cadeias laterais (Figura 3-2). Inicialmen-te, podem ser separados em resduos polarese apolares. Os resduos polares incluem ami-nocidos no-carregados e carregados (comcarga positiva ou negativa), enquanto os res-duos apolares incluem aminocidos aromti-cos e alifticos (no aromticos).As propriedades dos aminocidos so altamente in-

    fluenciadas pelo pH do meio circundante. De acordo

    com sua acidez ou basicidade, a carga dos resduos po-de ser modificada e, por conseguinte, algumas propri-edades da protena. Assim, dependendo docompartimento celular, uma mesma protena podeapresentar ionizao distinta de seus resduos de ami-nocidos e, por conseguinte, propriedades eletrostti-cas diferentes. Tais caractersticas destacam aimportncia de uma avaliao adequada do estado deionizao dos resduos de aminocidos das protenasem estudo, principalmente o resduo de histidina.

    Durante a sntese proteica, os aminoci-dos so conectados atravs da denominadaligao peptdica (ver adiante). Neste proces-so, o grupo carboxilato de um resduo e o ogrupo amino de outro resduo de aminocidoreagem, dando origem a um grupo amida quecompe a ligao peptdica.

    Carboidratos

    Carboidratos compem um terceirogrupo de biomolculas. So compostos que,ao contrrio das protenas, no esto codifi-cados diretamente no genoma. Enquanto asntese de protenas guiada por um molde (amolcula de RNAm), a sntese de carboidra-tos no segue uma referncia direta, mas umprocesso complexo e menos especfico.Embora o genoma no codifique a sequncia oli-

    gossacardica, ele determina a expresso de diversasenzimas que sintetizam carboidratos, ligam-os a outrasestruturas polissacardicas ou ainda modificam os re-sduos monossacardicos, adicionando ou removendogrupamentos substituintes nos anis furanosdicos oupiranosdicos (Figura 5-2). Todo este processo bas-tante especfico, envolvendo tipos de monossacardeosou ainda posies especficas dentro destas molculas.Uma das principais famlias de enzimas envolvidas nes-te processo so as denominadas glicosil transferases.

    Esta famlia de biomolculas apresentauma grande variedade de formas (e, por con-seguinte, funes), desde suas formas mo-nomricas at grandes polmeros comcentenas de unidades monossacardicas. Soencontrados ligados a protenas, formando aschamadas glicoprotenas; sulfatados, dandoorigem aos glicosaminoglicanos; ligados a li-pdeos em membranas celulares (os glicolip-deos) e como exopolissacardeos da parede

    Figura 4-2: Exemplos de aminocidos encon-trados em nosso organismo mas no codifi-cados no genoma humano.

  • 2. Nveis de Informao Biolgica

    celular de fungos, dentro outros.A forma majoritria de monossacarde-

    os biolgicos em soluo um ciclo, mais co-mumente composto por 5 ou 6 tomos. Oscarboidratos com anis de 5 membros sodenominados furanoses (como a ribose e adesoxirribose), por semelhana ao compostofurano, enquanto os carboidratos com anisde 6 membros so denominados piranoses(como a glicose, a manose e a galactose), pe-la sua similaridade com o composto pirano(Figura 5-2).Estes anis apresentam caractersticas conforma-

    cionais importantes. No caso das furanoses, podem seras formas em envelope e torcida. No caso das pirano-ses, podem ser as formas em cadeira e bote torcido(Figura 6-2). Cada uma destas formas pode apresentarainda variaes, especficas para cada carboidrato emsoluo. Esta transio entre diversos estados confor-macionais de monossacardeos denominada de equi-lbrio pseudo-rotacional.

    Os carboidratos possuem algumas di-ferenas importantes em relao aos amino-cidos. So, em geral, compostos maispolares, o que indica que iro interagir forte-mente com a gua. Outra diferena impor-tante se refere sua diversidade. Emcomparao aos 20 aminocidos codificadosno genoma, mais de 100 possveis unidadesmonossacardicas j foram observadas como

    presentes em biomolculas (Figura 7-2).Em analogia ligao peptdica, carboi-

    dratos so ligados entre si (ou a outras mo-lculas) atravs da denominada ligaoglicosdica. Contudo, aminocidos possuemsomente um grupo amino e um grupo cidocarboxlico em seu esqueleto peptdico, deforma que somente um tipo de ligao pept-dica possvel entre dois resduos (o mesmose d com nucleotdeos). Como a ligao gli-cosdica entre dois monossacardeos for-mada pela reao entre dois gruposhidroximetileno (CHOH), e cada monossacar-deo possui vrios destes grupos, mltiplas li-gaes entre dois monossacardeosconsecutivos tornam-se possveis. Cria-se,assim, um complexo espectro de possveis li-gaes entre os mesmos dois monossacar-deos.O tomo de carbono na posio 1 (C1) de um mo-

    nossacardeo apresenta propriedades especficas, sen-do denominado carbono anomrico. Para um mesmo

    Figura 6-2: Equilbrio conformacional entre aforma de cadeira e bote torcido para o res-duo de cido idurnico, componente da hepa-rina.

    Figura 5-2: Os dois principais grupos de carboidratos envolvem monossacardeos compostospor anis de 5 (furanoses) e 6 membros (piranoses). So apresentados 3 tipos de visualizaopara estas molculas, duas 2D e uma 3D.

  • 2. Nveis de Informao Biolgica

    monossacardeo, o carbono anomrico pode ser en-contrado em duas possveis configuraes, e (Figu-ra 5-2). Assim, uma ligao glicosdica entre o carbonoanomrico (C1) de uma manose e o tomo C3 de outramanose poderia ocorrer de duas formas, -Man-(13)-Man ou -Man-(13)-Man. No caso de glicoprotenas,contudo, a forma aquela usualmente encontradapara o resduo de manose (para outros resduos, a for-ma anomrica preferencial pode ser diferente).Tomando como exemplo o tetrassacardeo -Man-

    (12)--Man-(12)--Man-(13)-Man, comumenteencontrado em glicoprotenas do tipo oligomanose, oprimeiro resduo de manose (denominada extremidadeno-redutora) possui seu carbono anomrico ocupadona ligao glicosdica, tendo sua configurao (nesteexemplo ) fixa. Em contrapartida, o quarto resduo demanose possui seu carbono anomrico livre. Esta por-o denominada redutora, e tem a configurao docarbono anomrico varivel, isto , pode estar tanto naforma quanto .

    Membranas

    Diferentemente dos cidos nucleicos,protenas e carboidratos, membranas no seconstituem em polmeros biolgicos, mas em

    agregados moleculares de lipdeos anfipticosorganizando uma bicamada (Figura 8-2).Apresentam papel fundamental vida, com-partimentalizando a clula, definindo seus li-mites, propriedades e organizando estruturascelulares.

    importante ter em mente que mem-branas so muito mais do que simples "pare-des" delimitadoras da clula. Oscomponentes de membranas so variados,includos diferentes tipos de lipdeos, prote-nas e carboidratos. A presena e localizaodestes componentes pode ser modulada deforma dinmica em funo de necessidadesda clula, tecido ou organismo, sinalizando emodulando cadeias de eventos e definindoregies da clula com propriedades especfi-cas (a chamada polaridade celular).

    Molculas anfipticas apresentam comocaracterstica a presena simultnea de umaregio polar, tambm chamada de cabea po-lar (hidroflica ou lipofbica) e de uma regioapolar, tambm chamada de cauda hidrofbi-ca (hidrofbica ou lipoflica). Assim, membra-nas celulares possuem superfcies polares einteriores apolares. As caractersticas destas

    Figura 7-2: Exemplo da complexidade de possveis monossacardeos encontrados na natureza.

  • 2. Nveis de Informao Biolgica

    duas regies, contudo, podem variar bastanteem funo da composio dos lipdeos, inter-ferindo na carga, espessura e fluidez damembrana (e, por conseguinte, na sua capa-cidade de modular fenmenos biolgicos).

    "Micromolculas" biolgicas

    Quando pensamos nos efetores da in-formao gentica natural que a primeirafamlia de biomolculas que venha a nossamente seja a das protenas, codificadas dire-tamente no genoma. Contudo, como vimosanteriormente, outros tipos de biomolculasso fundamentais ao funcionamento dos or-ganismos, mesmo que estas no estejam co-dificadas diretamente no DNA.

    Da mesma forma como no h um con-junto de bases nitrogenadas que codifiquemonossacardeos ou lipdeos, diversos com-postos de baixa massa molecular (por issomuitas vezes chamados de micromolculas,em oposio s macromolculas, compostosde elevada massa molecular) no possuemcodificao direta no genoma, mas so pro-duzidos a partir de enzimas que, estas sim,tm suas sequncias de aminocidos defini-das pela molcula de DNA. Neurotransmisso-res, hormnios, metablitos primrios e

    secundrios em plantas e uma infinidade decompostos, em decorrncia de sua importn-cia biolgica (e teraputica), so potenciaisalvos de estudos computacionais. Contudo,justamente em decorrncia de sua grandevariedade qumica, torna-se difcil estabelecerpadres ou referncias estruturais, como ocaso das biomacromolculas vistas anterior-mente. Frequentemente, esta caractersticacria uma srie de dificuldades e desafios noemprego de ferramentas computacionais noestudo de micromolculas. Dentre estas difi-culdades destaca-se a necessidade de desen-volvimento de parmetros especficos paracadamolcula (comoveremosnocaptulo8).

    2.3. Nveis de organizao

    A classificao da estrutura de bioma-cromolculas envolve, didaticamente, quatrodiferentes nveis de complexidade. Esta sepa-rao facilita o nosso entendimento do comoe do porqu macromolculas adotarem de-terminadas formas em meio biolgico e, apartir destas, desempenharem funes espe-cficas. Adicionalmente, cada nvel traz volu-me e tipos de informao diferentes, exigindopoder computacional e abordagens distintas,como veremos adiante.

    Em princpio, estes nveis apresentamum componente hierrquico, ou seja, a infor-mao de um nvel importante ou necess-ria para o nvel de complexidade seguinte.Contudo, outros fatores podem participarneste processo.Por exemplo, no caso das protenas, embora nor-

    malmente consideremos que a informao contida naestrutura 1ria (isto , a sua sequncia de aminocidos)seja determinante para a sua estrutura 2ria, ela no onico determinante. Concesses podem ser realizadaspara permitir uma estrutra 3ria ou mesmo 4ria maisestvel.Assim, uma determinada regio em hlice pode ser

    parcialmente desestruturada para facilitar a formaode um determinado domnio (ver adiante). Este tipo deconsiderao importante na validao de modelostericos para a estrutura de protenas, como veremosno captulo 7.Adicionalmente, fatores externos prpria sequn-

    Figura 8-2: Representao de uma membranaPOPE (palmitoil oleil fosfatidil etanolamina)contendo a enzima PglB (oligossacariltransferase) de Campylobacter lari. Ostomos de oxignio esto representados emvermelho, os tomos de carbono em verde,os tomos de hidrognio em branco enitrognios em azul. A enzima estrepresentada como cartoon verde.

  • 2. Nveis de Informao Biolgica

    cia proteica podem interferir nestes nveis de organiza-o. Um dos fatores mais comuns a glicosilao deprotenas, que frequentemente estabiliza partes damesma e, assim como as chaperonas, pode interferirna forma proteica tridimensional existente em meio bi-olgico.

    Estrutura 1ria

    O nvel inicial de complexidade, a estru-tura 1ria, consiste num padro de letras (oupequenos conjuntos de letras) que representaa composio do biopolmero. Esta sequnciade letras representa uma informao de na-tureza unidimensional (1D), em que a nica di-menso descrita a ordem de aparecimentodos monmeros.

    Para cidos nucleicos, a estrutura 1riaconsiste numa sequncia de nucleotdeos, en-quanto para protenas em uma sequncia deaminocidos e, para carboidratos, em umasequncia de monossacardeos (Figura 9-2).Este ltimo caso o nico para o qual no huma descrio de uma nica letra para cadamonmero, principalmente em face do eleva-do nmero de possveis monmeros encon-trados na natureza, maior que o nmero deletras no alfabeto.

    Embora de menor complexidade, a es-trutura 1ria nos oferece um grande volume deinformaes sobre a forma nativa da biomo-lcula e, por conseguinte, sobre suas funes.Tais informaes advm principalmente dacomparao de sequncias de biomolculas(aminocidos ou nucleotdeos) em busca depadres especficos associados a determina-das caractersticas ou funes. Uma vezidentificados, esses padres ou assinaturaspodem ser usados na busca das mesmas ca-ractersticas em outras protenas, desconhe-cidas. Estas comparaes ainda nos permitemestudar a evoluo destas biomolculas e deseus organismos, contribuindo no entendi-mento de como a vida se desenvolveu e atin-giu o seu estgio atual de complexidade (vercaptulo 5).

    Estrutura 2ria

    A partir da sequncia de monmerosdescritos, em uma determinada ordem espe-cfica, na estutura 1ria surgem interaes en-tre monmeros vizinhos e com as molculasde solvente circundantes. Por exemplo, en-quanto dois nucleotdeos vizinhos tendem a"empilhar" os anis das bases, uma cadeia la-teral de um aminocido polar vai se expor gua, maximizando interaes por ligao dehidrognio com este solvente. De forma se-melhante, uma cadeia apolar ir se expor aoslipdeos em uma membrana, maximizando in-teraes hidrofbicas com este outro solven-te.

    Estas interaes entre monmerosacabam por dar origem a padres repetitivosde organizao espacial, denominados de es-trutura 2ria (Figura 10-2). Estes padres ouelementos aparecem em nmero relativa-

    Figura 9-2: Representao da estrutura 1riade diferentes biomacromolculas: DNA, RNA,protena (estas trs representando o peptdeomelitina, componente do veneno da abelhaApis mellifera) e carboidratos (representandouma sequncia repetitiva de heparina). A letraS na sequncia oligossacardica indicasulfatao.

    DNA:GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGTTACCCGCGTTGATCTCGTGGATAAAACGCAAACGCCAACAG

    RNA:GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGGGUUACCCGCGUUGAUCUCGUGGAUAAAACGCAAACGCCAACAG

    Aminocidos:GIGAVLKVLTTGLPALISWIKRKRQQ

    Sequncia sacardica:-D-GlcNAc,6S-(13)--D-GlcA-(14)--D-GlcNS,3S,6S-(14)--L-IdoA,2S-(14)--D-GlcNS,6S

  • 2. Nveis de Informao Biolgica

    Por exemplo, sua flexibilidade permite que atuem comotampas ou abas, cobrindo stios ativos e regulando oacesso de moduladores ou substratos. De forma aindamais direta, alas so frequentemente os elementos deestrutura 2ria mais expostos ao solvente. Assim, mui-tas vezes envolvem-se em contatos protena-protena(ou com outras biomolculas), os quais podem ser de-terminantes para a funo proteica. Assim, emboramais susceptveis evolutivamente a mutaes, no soincomuns alas com resduos conservados, fundamen-tais para suas respectivas funes biolgicas.

    A hlice e as folhas foram inicial-mente descritos por Linus Pauling e Robert B.Corey em 1951, embora as primeiras propos-tas para as estruturas em folhas datem dedcadas mais cedo, em 1933, por Astbury eBell. As folhas so formadas por sequnci-as de aminocidos (cada sequncia denomi-nada de fita) quase completamenteextendidas. Estas fitas, quase lineares, inte-ragem lado a lado ao longo de seus eixos lon-gitudinais, atravs de uma srie de ligaes dehidrognio entre o grupamento N-H de umafita e o grupamento C=O da fita vizinha (Figura10-2). Para que esta organizao seja poss-vel, os tomos de C adotam orientao in-tercalada, acima e abaixo do plano da folha.Esta organizao se assemelha a uma sriede dobraduras em uma folha de papel, deforma que este tipo de estrutura 2ria tam-

    Tipo Tamanho(no de resduos)

    voltas 3

    voltas 4

    voltas 6

    alas 6-16a

    Tabela 1-2: Tipos de alas mais comunsencontrados em protenas.

    a A despeito de tamanhos semelhantes, as formas

    destas alas se aproximam das letras que as

    denominam. Na volta os resduos das extremidades

    da ala esto prximos, e na volta observa-se uma

    distoro na geometria.

    voltas 5

    mente pequeno de tipos, de forma que a es-trutura tridimensional de biomolculas podeser descrita como uma combinao de con-juntos destes elementos.

    Diferentes composies de estrutura1ria podem gerar um mesmo tipo de estrutura2ria. No por acaso, as propriedades destasestruturas 2rias, mesmo que formadas porsequncias diferentes, apresentam seme-lhanas. Por exemplo, uma ala em protenas frequentemente uma estrutura 2ria bastan-te flexvel, enquanto folhas e hlices tendema ser mais rgidas.

    As estuturas 2rias mais frequentementelembradas so aquelas relacionadas a prote-nas. Incluem trs grupos de elementos prin-cipais: as alas, as hlices e as folhas .

    As alas ou voltas so elementos en-volvidos na conexo entre hlices e folhas.Tendem a ser, portanto, estruturas flexveispara acomodar as mais variadas orientaesque estas hlices e fitas podem adotar entresi. Embora alas pequenas possam ser bas-tante rgidas, suas flexibilidades tendem a au-mentar conforme o tamanho da ala aumenta(Tabela 1-2). Justamente em funo destaelevada flexibilidade, alas so mais suscept-veis evolutivamente a sofrerem mutaes(salvo se estiverem sob alguma presso evo-lutiva, determinada por alguma funo espe-cfica). Em outras palavras, a troca de umresduo por outro de propriedades distintaspode ser mais facilmente acomodada nestaestrutra flexvel do que nos outros tipos deestrutura 2ria, mais rgidos.Enquanto hlices e folhas apresentam periodicidade

    ao longo de suas estruturas (semelhana nos pares dengulos e a cada aminocido, ver adiante), alas sedistinguem por no apresentarem periodicidade. Ainda,embora alas sejam frequentemente consideradas co-mo elementos sem estrutura definida (as chamadasrandom coils), ou mesmo com estrutura aleatria, istono sempre verdade. Alas podem adotar formasmais definidas, dependendo de seu tamanho e compo-sio.De forma semelhante, equivocado subestimar a

    importncia das alas, considerando somente seu pa-pel como elemento de conexo. Alas apresentam di-versos impactos funcionais importantes em protenas.

    alas 6-16a

  • 2. Nveis de Informao Biolgica

    do, enquanto nas folhas estasinteraes se do com resduosem fitas vizinhas, nas hlices es-tas interaes acontecem comresduos mais prximos na se-quncia, entreasvoltasdahlice.

    Diversos tipos de hlicespodem ser encontrados em pro-tenas (Tabela 2-2). A hlice maiscomum, denominada de hlice ,apresenta 3,6 resduos de amino-cidos por volta da hlice, e cadaaminocido (n) realiza ligao de

    hidrognio com o quarto resduo seguinte (n +4), que perfaz (aproximadamente) uma voltacompleta da hlice. Outro tipo de hlice co-mum em alguns tipos de protena a hlice depoli-prolina II encontrada, por exemplo, emprotenas de parede celular de plantas e nocolgeno. Neste tipo de hlice, contudo, comoo tomo de nitrognio da prolina est ligado atrs tomos de carbono, no h formao deligao de hidrognio durante a organizaoda hlice.Existem, ainda, outros tipos de hlice, menos co-

    muns, como a hlice e a hlice 310 (Tabela 2-2). Quan-to nomenclatura, a hlice 310 foge ao padro de usode letras gregas das hlices e . O nmero 3 repre-senta o nmero de resduos por volta da hlice, en-quanto o nmero 10 reflete o nmero de tomos entreduas ligaes de hidrognio vizinhas dentro da hlice.Assim, segundo esta nomenclatura, a hlice seriachamada de 3,613 e a hlice de 4,416. Tais nomencla-turas, contudo, no so normalmente empregadas.

    No so s as protenas que que apre-sentam estruturas 2rias. cidos nucleicos ecarboidratos tambm podem apresentar pa-dres repetitivos de organizao espacial,definidos pela sequncia de monmeros queos constituem.

    A molcula de DNA pode adotar trs ti-pos de estrutura 2ria, denominados A, B e Z(Figura 11-2), embora a forma B seja a estru-tura mais comum e a partir dela sejam defini-das as fendas maior e menor do DNA (Tabela3-2). A transio entre estas formas deter-minada pela hidratao, tipos de ctions e daprpria sequncia de nucleotdeos. Contudo, adificuldade em mimetizar as interaes biol-

    bm denominado de folhas pregueadas (Figura 10-2).A forma pregueada de folhas

    tambm acompanhada pelas cadei-as laterais dos resduos de aminoci-dos, ora acima do plano da folha, oraabaixo. Contudo, resduos em fitas vi-zinhas orientam suas cadeias lateraispara o mesmo lado, frequentementede forma justaposta (Figura 10-2). Is-to permite, por exemplo, que uma fa-ce da folha seja hidrofbica e a outrahidroflica.

    A organizao das fitas em folhas podeseguir duas orientaes possveis: i) a poroN-terminal de uma fita interagindo com aporo N-terminal da fita vizinha (e, conse-quentemente, o C-terminal interagindo com oC-terminal), ou ii) a poro N-terminal de umafita interagindo com a poro C-terminal dafita vizinha. Estas duas possibilidades de inte-raes de fitas do origem a dois tipos de fo-lhas : as paralelas e as antiparalelas.

    As folhas paralelas e antiparalelas di-ferem em outras caractersticas. Esta organi-zao diferenciada das fitas acarreta, porexemplo, em um padro distinto de ligaesde hidrognio. Enquanto nas folhas antipara-lelas as ligaes de hidrognio formam umngulo de 90o com as fitas, nas folhas para-lelas estes ngulos se tornam maiores (e asinteraes mais fracas) (Figura 10-2).As folhas podem ser encontradas em formas pu-

    ras, paralelas ou antiparalelas, ou mistas, em que fo-lhas paralelas pareiam com folhas antiparalelas.Contudo, folhas paralelas tendem a ser menos est-veis conformacionalmente que folhas antiparalelas.Esta diferena pode ser bastante significativa, suficien-te para acarretar na desnaturao de protenas porseus inibidores, como foi proposto na ao de serpinassob suas proteses alvo.

    O trabalho pioneiro de Pauling e Coreyno incio dos anos 50 do sculo XX identificouno somente as folhas, mas tambm hlicesem sequncias polipeptdicas. A formao dahlice, de forma similar s folhas, tambmenvolve a realizao de ligaes de hidrognioentre grupos N-H e C=O vizinhos no espao(mas no na sequncia) (Figura 10-2). Contu-

    Linus Pauling

  • 2. Nveis de Informao Biolgica

    gicas, envolvidas no DNA e em complexosDNA-protenas, durante a determinao deestruturas 3D dificulta associaes mais cla-ras de cada tipo de estrutura 2ria a fenme-

    nos especficos in vivo.Diferentes tipos de estrutura 2ria acar-

    retam em diferentes propriedades estruturaisna molcula de DNA, como na largura e pro-

    Figura 10-2: Representao dos tipos mais comuns de estrutura 2ria encontrados em protenas.Em verde esto as hlices (A), em azul as hlices 310 (B), em salmo as hlices (C), em cianoas folhas paralelas (D) e roxo as antiparalelas (E). As ligaes de hidrognio entre tomos doesqueleto peptdico esto apresentadas como linhas tracejadas em marrom. As estruturas sopartes que compe as protenas descritas pelos cdigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, epara cada uma duas diferentes orientaes so apresentadas. Note que as cadeias lateraisapontam para fora do eixo das hlices e, para as folhas, para cima e para baixo do planodefinido pelas fitas.

  • 2. Nveis de Informao Biolgica

    fundidade das fendas maior e menor e na dis-posio e orientao dos grupos fosfato, pro-priedades estas que, por sua vez, estodiretamente relacionadas especificidade dainterao do DNA com protenas e frmacos.A forma B do DNA pode assumir dois sub-estados,

    denominados BI e BII, definidos por diferenas em tor-es na parte sacardica e no grupo fosfato (ver adian-te). Essa regio, formada por carboidrato e fosfato, tambm denominada de esqueleto do DNA, em analo-gia ao esqueleto peptdico. A lgica a mesma: o es-queleto composto pela regio comum a todos osmonmeros formadores do biopolmero. Adicional-mente, outras formas de DNA j foram identificadas(alguns autores afirmam inclusive que poucas letrasdo alfabeto sobram para nomear novas formas deDNA que por ventura venham a ser identificadas), em-bora muitas ainda no tenham papel biolgico claro.A maioria dos genomas eucariticos est sujeita a

    um fenmeno de metilao do DNA, que consiste naadio de um grupo metila no tomo de carbono naposio 5 dos resduos de citosina. Como uma modifi-cao estrutural epigentica envolvida na regulao dopotencial regulatrio e transcricional do DNA, deve-seestar atento necessidade de incluir tal modificao nadescrio deste cido nucleico.

    No somente o DNA, mas tambm oRNA possui estrutura 2ria. Contudo, ao con-trrio do DNA, que uma molcula contendoduas ftas de cidos nucleicos, na maioria dassituaes o RNA uma molcula compostapor uma nica fita. Assim, enquanto no DNAos pareamentos entre bases que do origem estrutura 2ria surgem da interao de mo-lculas (fitas) diferentes e complementares,no RNA a estutura 2ria surge de interaesnaprpria fita, quedobra-se sobre simesma.

    As estruturas 2rias de RNA incluem re-

    gies de bases pareadas, alas de grampos,alas internas, bojos (do ingls bulge) e jun-es. Quando o RNA se dobra sobre si, eleforma pareamentos entre bases complemen-tares de forma anloga quelas vistas noDNA. Quando uma das fitas no RNA pareadoapresenta bases que no possuem uma con-trapartida para formar um par A-U ou C-G,forma-se uma protuberncia ou bojo.Estes bojos, isto , bases no pareadas em uma du-

    pla-fita, tambm podem ser encontradas em folhas .Neste caso, resduos de aminocidos de uma fita dei-xam de interagir com a fita vizinha, dando origem a es-te outro tipo de estrutura 2ria de protenas.

    As alas de grampos em molculas deRNA so anlogas s voltas observadas emprotenas, conectando duas fitas por umpequeno segmento de poucos resduos. NoRNA, quando a fita dobra-se sobre si mesma,deixa alguns resduos (no mnimo 4) projeta-dos para fora, formando uma ala. Neste tipode estrutura 2ria, a ala est vizinha a so-mente uma regio de pareamento de bases,enquanto que h duas regies, a cada lado dobojo, de bases pareadas.

    As alas internas podem ser entendidascomo uma dupla fita de DNA em que, no seumeio, as bases no so complementares e,por isso, no pareiam. Assim, ambas as fitasapresentam bases que no esto pareadas, oque a diferencia do bojo. Por fim, as junesconectam 3 ou mais regies de bases parea-das.

    O terceiro tipo de biopolmero constitu-inte de biomacromolculas, os carboidratospodem, similarmente a protenas e cidosnucleicos, adotar padres repetitivos de or-ganizao de suas unidades formadoras, mo-

    Tipo de hlice Resduos /volta

    Ligao dehidrognio

    Elevao /resduo ()

    Elevao /volta ()

    Direo maiscomum

    hlice 310 3 n + 3 2,0 6,0 direita

    hlice 4,4 n + 5 1,2 5,3 direitapoli-Pro I 3,3 - 1,7 5,6 direitapoli-Pro II

    hlice 3,6 n + 4 1,5 5,4 direita

    3 - 3,1 9,3 esquerda

    Tabela 2-2: Tipos de hlices encontrados em protenas.

  • 2. Nveis de Informao Biolgica

    nossacardeos, isto , em elementos de es-trutura 2ria.

    Polissacardeos lineares desenvolvemestruturas de hlices, similarmente prote-nas e cidos nucleicos. No caso destas mol-culas, contudo, a variabilidade deorganizaes possveis muito maior, de for-ma que no h definio especfica para umou alguns tipos de hlices, como vimos ante-riormente. Ao invs disto, cada tipo de polis-sacardeo apresentar um nmero deresduos por volta, elevao por resduo eelevao por volta, assim como seu sentidopara a direita ou para a esquerda (vide tabela2-3).Estas caractersticas, contudo, so normalmente

    determinadas experimentalmente atravs de difraode raios-X, na qual a amostra est na fase cristalina.

    Esta uma condio adequada descrio, por exem-plo, da quitina, polissacardeo encontrado na naturezaem condies semelhantes. Contudo, quando estes po-lissacardeos so transpostos para solues biolgicas,estas molculas adotam uma elevada flexibilidade e,por conseguinte, grande variao conformacional. Noraramente, perdemos a capacidade de identificar for-mas repetitivas, e a denominao de alas desordena-das pode tambm ser aplicada a polissacardeos.Adicionalmente, carboidratos no se apresentam

    somente como polissacardeos lineares, mas como oli-go- ou polissacardeos ramificados. Esta ramificaoagrega um grau adicional de complexidade na descri-o da forma destes compostos. Mesmo assim, ainda possvel descrever a forma destes compostos, caso acaso, como veremos adiante.

    Figura 11-2: Representao dos tipos mais comuns de estrutura 2ria encontrados no DNA, ilus-tradas para sequncias de 12 nucleotdeos. Em vermelho esto as hlices B (A), em azul ashlices A (B) e em magenta as hlices Z (C). As estruturas pelos cdigos PDB 3BSE, 3V9D e279D. Para cada uma duas diferentes orientaes so apresentadas, e o esqueleto dasmolculas de DNA est representado como fitas.

  • 2. Nveis de Informao Biolgica

    3ria que nenhuma outra biomolcula possui.Isso faz todo o sentido, tendo em vista queso as protenas os principais efetores da in-formao gnica. Em protenas, o enovela-mento envolve a aproximao mtua deresduos hidrofbicos, que buscam se escon-der da gua (tambm chamado de colapsohidrofbico), ocasionando a expulso destesolvente da regio central da protena.

    Simultaneamente, os resduos polaresso expostos ao solvente, e interaes inter-resduo so estabelecidas. Assim, a estruturaenovelada, nativa, ter uma quantidade mni-ma de molculas de gua em seu interior eum nmero mximo de contatos inter-resduo(Figura 12-2).A ideia de ambiente molecular para o enovelamento

    ou para que uma dada biomolcula exera sua funo mais complexa do que parece primeira vista. Emboraa ideia usual seja de que o meio aquoso seja predomi-nante, diversos tipos de ambientes aquosos podem serencontrados dentro de um organismo, tecido ou clula.Por exemplo, o pH pode apresentar grandes variaesentre vacolos lisossomais, citoplasma, plasma, se-creo gstrica ou duodenal. Por outro lado, a forainica da soluo pode mudar drasticamente na proxi-midade de membranas com diferentes cargas.Outro tipo de ambiente molecular que deve ser

    destacado definido pelas membranas biolgicas.Membranas so fluidos, e molculas inseridas emmembranas esto solvatados pelas molculas de fos-folipdeos. Assim, sendo o interior de membranas apo-lar (ou seja, lipoflico), o colapso hidrofbico podeacontecer ao inverso, com a exposio de resduosapolares para o solvente (neste caso, a membrana).Ambientes mais especficos para o enovelamento deprotenas podem ainda ser criados por outras prote-nas, denominadas chaperonas. Como um barril, chape-ronas podem isolar uma protena do meio aquoso,levando a formao de interaes inter-resduo queno seriam observveis de forma significativa em suaausncia. Por conseguinte, podem contribuir direta-

    Estrutura 3ria

    A importncia do conhecimento da es-trutura 2ria de biomolculas reside, principal-mente, no fato de que estes elementos seorganizam no espao tridimensional, dandoorigem ao que chamamos de estrutura 3ria.Em outras palavras, a estrutura 3ria de umadada biomolcula corresponde montagemdos seus elementos de estrutura 2ria. Poroutro lado, a estrutura 3ria (ou a 4ria, queveremos a seguir) que ir exercer a funobiolgica da molcula em questo.

    Os diversos elementos de estrutura 2riade uma dada molcula se organizam em umaestrutura 3ria atravs de um fenmeno de-nominado enovelamento (tambm chamadoem portugus de dobramento, do termo emingls folding). Neste processo, uma combi-nao de foras converge para que a biomo-lcula adote uma conformao mais estvelno meio biolgico alvo.O termo conformao usado para descrever a

    forma de uma dada molcula, como j empregadoneste captulo. Contudo, deve-se adotar uma distinoentre conformao e estrutura, importante para o en-tendimento de propriedades moleculares. Estrutura serefere a uma nica forma, bem definida e conhecida.Conformao se refere a uma forma dentre mltiplaspossveis, em um determinado meio ou ambiente mo-lecular. Assim, comum nos referirmos a estruturacristalina de uma dada protena, pois no cristal temosuma nica forma 3D, como uma foto nica que compeum filme. Em soluo, contudo, h diversas formas si-multaneamente co-existindo. Neste caso, cada formapode ser denominada de conformao. Podemos, deforma mais precisa, dizer que a forma de uma biomo-lcula, determinada por cristalografia de raios-X, uma conformao cristalogrfica.

    O processo de enovelamento mais es-tudado para protenas, biopolmeros queapresentam uma versatilidade de estrutura

    Tipo dehlice

    pb /volta

    Elevao /pb ()

    Elevao /volta ()

    Direo

    DNA A 11 2,9 32 2,7 11,0 2,8 direitaDNA B 10 3,4 34 11,7 5,7 7,5 direitaDNA Z 12 3,8 45 - 4 9 esquerda

    LarguraFenda menor ()

    Largura Profundidade13,58,5

    convexa

    ProfundidadeFenda maior ()

    Tabela 2-3: Tipos de hlices encontrados em cidos nucleicos.

  • 2. Nveis de Informao Biolgica

    mente na formao de estruturas 3rias.

    Alm de interaes no covalentes en-tre os resduos de aminocidos de uma dadaprotena (ou as bases de um cido nucleico eos mo