Upload
doanquynh
View
219
Download
0
Embed Size (px)
Citation preview
Estudo de famílias de proteínas por Decomposição de
Redes de Correlação de Resíduos
Lucas Bleicher
2014
Como estudar uma proteína de para a qual pouquíssima informação está disponível?
Usualmente, pode-se pensar em experimentos de caracterização com a tecnologia do
DNA recombinante, hoje podemos produzir proteínas de interesse em sistemas de
expressão como E. coli e levedura em quantidades suficientes para efetuar os mais
diversos experimentos em laboratório – ensaios enzimáticos, estudo de estabilidade
frente a diversos tampões, temperaturas e faixas de pH, ensaios de cristalização para
determinação de sua estrutura tridimensional, etc. Porem, antes mesmo de iniciar
estudos experimentais, muito pode ser descoberto sobre uma proteína utilizando
apenas a sua sequencia de resíduos. Mesmo sozinha, ela é uma fonte riquíssima de
informações que podem servir como guia para novas hipóteses e sugerir experimentos
úteis.
Ainda que sequências de proteínas fossem completamente independentes (o que não
é verdade, como veremos a seguir), ainda assim seria possível obter informações
interessantes a respeito delas. A mera sequência de resíduos permite estimar
parâmetros de uso corrente em laboratório como ponto isoelétrico ou coeficiente de
extinção, ou ainda prever sítios de modificação pos-tradicional através das buscas de
motivos típicos.
Proteínas, porem, não são independentes. As sequências que vemos hoje na natureza
são o resultado de milhões de anos em que processos como duplicações gênicas,
recombinações e mutações ocorreram inúmeras vezes, de forma que para cada
proteína inédita encontrada hoje, é quase sempre possível descobrir inúmeras outras
proteínas homólogas a ela, isto é, que se originaram de uma sequência comum no
passado e divergiram devido ao processo evolutivo. Desta forma, é possível obter
informações ainda mais ricas sobre uma proteína quando a analisamos à luz de sua
família, isto é, do conjunto de proteínas homólogas que pode ser organizada em um
alinhamento múltiplo de sequencias.
É sabido que, em evolução, características genéticas deletérias geralmente tendem a
desaparecer de uma população. Em proteínas, isso significa que mutações que levam à
perda da função de uma proteína tendem a não serem mantidas caso ela seja crucial
para a sobrevivência do organismo. Há um efeito claro dessa afirmação quando
analisamos um alinhamento múltiplo de sequências: há posições que são
extremamente conservadas, isto é, que sempre (ou quase sempre) apresentam um
único tipo de resíduo,ou, pelo menos, resíduos de características físico-quimícas
similares. Na figura 1, há conservacão total de três resíduos – trata-se da tríade
catalítica das serino-proteases, a família que apresenta as sequências acima. Sem esses
resíduos, uma serina protease perde sua atividade.
Figura 1: Um alinhamento múltiplo de serina proteases (algumas colunas pouco conservadas foram
eliminadas para facilitar a visualização). As setas indicam as posições da tríade catalítica.
Este conceito já mostra como pode ser útil o conhecimento de toda uma família de
proteínas para o estudo de uma única, por um simples motivo:
SE UM RESIDUO É EXTREMAMENTE CONSERVADO EM UMA FAMILIA DE PROTEINAS,
DEVE HAVER UM BOM MOTIVO PARA ISSO – ELE PROVAVELMENTE TEM GRANDE
IMPORTÂNCIA FUNCIONAL OU ESTRUTURAL.
Com isso, já temos em mãos uma forma fácil de descobrir, para uma proteína que
queremos estudar, que resíduos devem ser importantes – basta analisar um
alinhamento múltiplo de suas famílias.
Há duas formas comuns de obter um alinhamento múltiplo de homólogos de uma
sequência. A primeira é montando o seu próprio alinhamento. Isso envolve buscar por
todas as sequências de homólogos disponíveis usando, por exemplo, o BLAST (seja
usando seu algoritmo padrão ou o PSI-BLAST, útil para obtenção de homólogos mais
distantes) e alinhá-las usando algum software para esse proposito (como o Clustal, o
Muscle ou o MAFFT, os dois últimos consideravelmente mais rápidos para grandes
quantidades de sequencias).
Uma forma mais fácil de se obter um alinhamento é através de bases de dados de
famílias de proteínas. A base mais usada para esse proposito é o PFAM
(www.pfam.org), que armazena e disponibiliza alinhamentos, ligações a outras bases e
informações básicas sobre milhares de famílias de proteínas já organizadas. Uma busca
utilizando a hemoglobina, por exemplo, retornará uma página com todas as
informações da família a que ela pertence (Globin, de código PFAM PF00042), além de
disponibilizar um alinhamento de 6000 sequencias homólogas (na versão 27 dessa
base de dados).
De posse de um alinhamento, precisamos de programas capazes de analisá-lo. A busca
de posições conservadas pode ser feita de forma simples com qualquer programa
capaz de manipular alinhamentos, e para esse curso recomendamos o uso do software
Jalview (www.jalview.org).
Nem sempre, porém, as informações que podem ser obtidas de uma família de
proteínas estão apenas nas posições mais conservadas – às vezes, podemos obtê-las
das posições correlacionadas. Dizemos que duas posições estão correlacionadas
quando o tipo de resíduo de aminoácido encontrado em uma das posições influencia
aquele encontrado na outra posição. Há três principais motivos para que isso
aconteça:
1) Eles estão em contato. Imagine que dois resíduos estão no interior de uma
proteína e um tem cadeia lateral extremamente volumosa enquanto o
contrário acontece com o segundo. É provável que se o menor resíduo fosse
mutado para um outro mais volumoso, fosse necessária uma mutação
compensatória no resíduo maior (transformando-o num menor) para que a
região mantivesse o mesmo empacotamento atômico sem afetar a estrutura
terciária da proteína. Por esse motivo, há vários anos vem-se desenvolvendo
métodos cada vez mais sofisticados para tentar descobrir, em uma sequência
de resíduos, quais estão em contato ao mensurar o quanto eles estão
correlacionados no contexto de sua família de homólogos – a aplicação obvia
destes métodos é ajudar na descoberta de estruturas de proteínas inéditas na
ausência de dados experimentais.
2) O efeito filogenético. As proteínas que vemos hoje, como dito, são o resultado
de inúmeras mutações. Se, durante a evolução, ocorreu a mutação S22E a
partir de um ramo da arvore filogenética onde já havia ocorrido a mutação
F35A, uma análise das proteínas existentes hoje indicaria uma correlação entre
glutamatos na posição 22 e alaninas na posição 35. Em geral, pares
correlacionados por efeito filogenético não têm grande utilidade para o
cientista que estuda proteínas em laboratório, e em geral é desejável ajustar os
métodos de estudo de forma a eliminar esses pares da análise. Uma forma
simples de tentar remediar esse problema é filtrar o alinhamento de forma a
retirar sequências de alta identidade.
3) Correlação funcional. Há casos em que resíduos tendem a aparecer
simultaneamente porque sua presença é necessária para uma dada
característica que não é compartilhada por todas as proteínas da família. Um
caso interessante é o da família das lisozimas e alfa-lactalbuminas. As primeiras
são enzimas capazes de catalisar uma reação (a hidrólise de ligações em
componentes da parede celular de bactérias), tendo como resíduos catalíticos
um aspartato e um glutamato (D52 e E35). As últimas, apesar de serem
homólogas às primeiras, tem outra função (são a subunidade regulatória da
lactose sintase), e portanto não precisam destes resíduos. O resultado é que há
uma forte correlação entre a presença de aspartatos na posição 52 e
glutamatos na posição 35. Efeito semelhante ocorreria se, numa dada família
de proteínas, algumas possuem um sitio de ligação a metal e outras não[1], ou
se alguns membros de uma família apresentam pontes dissulfeto ligando duas
posições[2], etc.
Neste curso, focaremos em métodos que ajudem a descobrir resíduos
funcionalmente importantes em uma família de proteínas, como descrito no item
acima. Caso o leitor tenha interesse, é importante saber que há hoje excelentes
métodos voltados à busca de resíduos em contato, como o algoritmo PSICOV [3].
A metodologia utilizada nesse curso para a parte computacional será a DRCN (do
inglês Decomposition of residue correlation networks, ou Decomposiçãoo de redes
de correlação de resíduos). O material do curso acompanha o artigo original que
descreve esta metodologia em detalhes (Bleicher, Lemke & Garratt, 2011). De
forma sucinta, ela consiste nos seguintes passos:
1) Filtragem do alinhamento
Como a única entrada necessária para esse método é um alinhamento múltiplo de
sequência, é importante que ele seja uma amostra representativa da família, de
forma a evitar artefatos. Alinhamentos obtidos de forma automática (seja usando o
PFAM ou o BLAST) comumente apresentam problemas como a presença de
fragmentos, regiões mal alinhadas (esses dois problemas podem levar a resultados
espúrios) ou redundância (que exacerba o efeito de correlação devido ao efeito
filogenético).
2) Calculo de correlações
Para cada par resíduo-posição (exemplo, D13 e R22) com suficiente amostragem,
calcula-se um escore de correlação associado. Escores positivos indicam correlação:
um valor de 15 para o par D13-R22 indica que a presença de um aspartato na
posição 13 aumenta a frequência de argininas na posição 22, e a probabilidade
desse aumento ser ao acaso é menor que 10-15. Já escores negativos indicam anti-
correlação: a presença de um resíduo diminui a frequência do segundo e
novamente o logaritmo da probabilidade é usado como escore, mas com sinal
negativo para denotar a anti-correlação: em um escore de -18, a probabilidade da
diminuição da frequência ter sido ao acaso é menor que 10-18.
Se calcularmos todos os escores possíveis para um alinhamento e tomarmos
aqueles mais significativos (acima de um valor de corte), é possível construir uma
rede de correlações, em que nós da rede são combinações resíduo-posição (e.g.,
D13) e conexões na rede indicam correlação ou anti-correlação significativa. Um
exemplo de rede está mostrada na figura 2.
Figura 2: Rede de correlações em superóxido dismutases de Fe/Mn [4].Linhas cheias indicam
correlação positiva, linhas tracejadas indicam anti-correlação.
3) Decomposição da rede
Uma rede como a da figura acima pode ser decomposta em comunidades, isto é,
conjuntos de resíduos altamente conectados entre si mas não ao resto da rede. O
significado biológico dessas comunidades é que elas representam grupos de
resíduos que tendem a aparecer simultaneamente em um subconjunto da família
de proteínas. Muitas vezes, isso se deve a uma dada característica de uma sub-
classe, como por exemplo um sítio de ligação a metal, um conjunto de resíduos
catalíticos, uma interface de interação, etc. A decomposição da rede da figura 1
pode ser vista abaixo:
Figura 3: Decomposição da rede de correlações em Fe/Mn-SODs[4]. Resíduos têm a numeração da
SOD de Tripanossoma brucei, e são coloridos de acordo com a comunidade (e.g., R175 e V162, em
amarelo, formam uma comunidade, pois estão conectados entre si mas não ao resto da rede).
Linhas verdes indicam correlação, linhas vermelhas anti-correlação.
4) Geração de arquivos de visualização auxiliares
Nessa fase, vários arquivos são gerados de forma a facilitar o entendimento dos
resultados pelo usuário, mapeando as informações para diferentes sequencias ou
para arquivos de estrutura. As matrizes de autocorrelação, por exemplo, servem
para ilustrar a variação de frequência devido à presença de resíduos em outras
posições.
Figura 4: Matriz de autocorrelação para a comunidade em laranja mostrada na figura 3. A coluna
ALL indica a frequência dos aminoácidos da primeira coluna (e.g., 60.4% das SODs têm uma glicina
na posição 71), enquanto as outras colunas indicam essa frequência na presença de cada resíduo
em seu título (e.g., a frequência de glicinas na posição 71 sobe para 93.3% para as sequências que
têm uma metionina na posição 25).
Pode-se também gerar listas de resíduos conservados e correlacionados (com a
numeração de quaisquer proteínas da família), indicar o quanto cada sequência é
representada por cada comunidade, ou gerar um script para o Pymol de forma a
mostrar os resíduos correlacionados, além de editar arquivos PDB para mostrar
conservação.
Bibliografia
1. Palmieri LDC, Lima LMTR, Freire JBB, Bleicher L, Polikarpov I, et al. (2010) Novel Zn2+-binding sites in human transthyretin: implications for amyloidogenesis and retinol-binding protein recognition. J Biol Chem 285: 31731–31741.
2. Watanabe L, De Moura PR, Bleicher L, Nascimento AS, Zamorano LS, et al. (2010) Crystal structure and statistical coupling analysis of highly glycosylated peroxidase from royal palm tree (Roystonea regia). J Struct Biol 169: 226–242.
3. Jones DT, Buchan DWA, Cozzetto D, Pontil M (2012) PSICOV: precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments. Bioinformatics 28: 184–190. doi:10.1093/bioinformatics/btr638.
4. Bleicher L, Lemke N, Garratt RC (2011) Using Amino Acid Correlation and Community Detection Algorithms to Identify Functional Determinants in Protein Families. PLoS One 6: e27786. doi:10.1371/journal.pone.0027786.