7
Estudo de famílias de proteínas por Decomposição de Redes de Correlação de Resíduos Lucas Bleicher 2014

Estudo de famílias de proteínas por Decomposição de Redes ... · inglês Decomposition of residue correlation networks, ou Decomposiçãoo de redes de correlação de resíduos)

Embed Size (px)

Citation preview

Estudo de famílias de proteínas por Decomposição de

Redes de Correlação de Resíduos

Lucas Bleicher

2014

Como estudar uma proteína de para a qual pouquíssima informação está disponível?

Usualmente, pode-se pensar em experimentos de caracterização com a tecnologia do

DNA recombinante, hoje podemos produzir proteínas de interesse em sistemas de

expressão como E. coli e levedura em quantidades suficientes para efetuar os mais

diversos experimentos em laboratório – ensaios enzimáticos, estudo de estabilidade

frente a diversos tampões, temperaturas e faixas de pH, ensaios de cristalização para

determinação de sua estrutura tridimensional, etc. Porem, antes mesmo de iniciar

estudos experimentais, muito pode ser descoberto sobre uma proteína utilizando

apenas a sua sequencia de resíduos. Mesmo sozinha, ela é uma fonte riquíssima de

informações que podem servir como guia para novas hipóteses e sugerir experimentos

úteis.

Ainda que sequências de proteínas fossem completamente independentes (o que não

é verdade, como veremos a seguir), ainda assim seria possível obter informações

interessantes a respeito delas. A mera sequência de resíduos permite estimar

parâmetros de uso corrente em laboratório como ponto isoelétrico ou coeficiente de

extinção, ou ainda prever sítios de modificação pos-tradicional através das buscas de

motivos típicos.

Proteínas, porem, não são independentes. As sequências que vemos hoje na natureza

são o resultado de milhões de anos em que processos como duplicações gênicas,

recombinações e mutações ocorreram inúmeras vezes, de forma que para cada

proteína inédita encontrada hoje, é quase sempre possível descobrir inúmeras outras

proteínas homólogas a ela, isto é, que se originaram de uma sequência comum no

passado e divergiram devido ao processo evolutivo. Desta forma, é possível obter

informações ainda mais ricas sobre uma proteína quando a analisamos à luz de sua

família, isto é, do conjunto de proteínas homólogas que pode ser organizada em um

alinhamento múltiplo de sequencias.

É sabido que, em evolução, características genéticas deletérias geralmente tendem a

desaparecer de uma população. Em proteínas, isso significa que mutações que levam à

perda da função de uma proteína tendem a não serem mantidas caso ela seja crucial

para a sobrevivência do organismo. Há um efeito claro dessa afirmação quando

analisamos um alinhamento múltiplo de sequências: há posições que são

extremamente conservadas, isto é, que sempre (ou quase sempre) apresentam um

único tipo de resíduo,ou, pelo menos, resíduos de características físico-quimícas

similares. Na figura 1, há conservacão total de três resíduos – trata-se da tríade

catalítica das serino-proteases, a família que apresenta as sequências acima. Sem esses

resíduos, uma serina protease perde sua atividade.

Figura 1: Um alinhamento múltiplo de serina proteases (algumas colunas pouco conservadas foram

eliminadas para facilitar a visualização). As setas indicam as posições da tríade catalítica.

Este conceito já mostra como pode ser útil o conhecimento de toda uma família de

proteínas para o estudo de uma única, por um simples motivo:

SE UM RESIDUO É EXTREMAMENTE CONSERVADO EM UMA FAMILIA DE PROTEINAS,

DEVE HAVER UM BOM MOTIVO PARA ISSO – ELE PROVAVELMENTE TEM GRANDE

IMPORTÂNCIA FUNCIONAL OU ESTRUTURAL.

Com isso, já temos em mãos uma forma fácil de descobrir, para uma proteína que

queremos estudar, que resíduos devem ser importantes – basta analisar um

alinhamento múltiplo de suas famílias.

Há duas formas comuns de obter um alinhamento múltiplo de homólogos de uma

sequência. A primeira é montando o seu próprio alinhamento. Isso envolve buscar por

todas as sequências de homólogos disponíveis usando, por exemplo, o BLAST (seja

usando seu algoritmo padrão ou o PSI-BLAST, útil para obtenção de homólogos mais

distantes) e alinhá-las usando algum software para esse proposito (como o Clustal, o

Muscle ou o MAFFT, os dois últimos consideravelmente mais rápidos para grandes

quantidades de sequencias).

Uma forma mais fácil de se obter um alinhamento é através de bases de dados de

famílias de proteínas. A base mais usada para esse proposito é o PFAM

(www.pfam.org), que armazena e disponibiliza alinhamentos, ligações a outras bases e

informações básicas sobre milhares de famílias de proteínas já organizadas. Uma busca

utilizando a hemoglobina, por exemplo, retornará uma página com todas as

informações da família a que ela pertence (Globin, de código PFAM PF00042), além de

disponibilizar um alinhamento de 6000 sequencias homólogas (na versão 27 dessa

base de dados).

De posse de um alinhamento, precisamos de programas capazes de analisá-lo. A busca

de posições conservadas pode ser feita de forma simples com qualquer programa

capaz de manipular alinhamentos, e para esse curso recomendamos o uso do software

Jalview (www.jalview.org).

Nem sempre, porém, as informações que podem ser obtidas de uma família de

proteínas estão apenas nas posições mais conservadas – às vezes, podemos obtê-las

das posições correlacionadas. Dizemos que duas posições estão correlacionadas

quando o tipo de resíduo de aminoácido encontrado em uma das posições influencia

aquele encontrado na outra posição. Há três principais motivos para que isso

aconteça:

1) Eles estão em contato. Imagine que dois resíduos estão no interior de uma

proteína e um tem cadeia lateral extremamente volumosa enquanto o

contrário acontece com o segundo. É provável que se o menor resíduo fosse

mutado para um outro mais volumoso, fosse necessária uma mutação

compensatória no resíduo maior (transformando-o num menor) para que a

região mantivesse o mesmo empacotamento atômico sem afetar a estrutura

terciária da proteína. Por esse motivo, há vários anos vem-se desenvolvendo

métodos cada vez mais sofisticados para tentar descobrir, em uma sequência

de resíduos, quais estão em contato ao mensurar o quanto eles estão

correlacionados no contexto de sua família de homólogos – a aplicação obvia

destes métodos é ajudar na descoberta de estruturas de proteínas inéditas na

ausência de dados experimentais.

2) O efeito filogenético. As proteínas que vemos hoje, como dito, são o resultado

de inúmeras mutações. Se, durante a evolução, ocorreu a mutação S22E a

partir de um ramo da arvore filogenética onde já havia ocorrido a mutação

F35A, uma análise das proteínas existentes hoje indicaria uma correlação entre

glutamatos na posição 22 e alaninas na posição 35. Em geral, pares

correlacionados por efeito filogenético não têm grande utilidade para o

cientista que estuda proteínas em laboratório, e em geral é desejável ajustar os

métodos de estudo de forma a eliminar esses pares da análise. Uma forma

simples de tentar remediar esse problema é filtrar o alinhamento de forma a

retirar sequências de alta identidade.

3) Correlação funcional. Há casos em que resíduos tendem a aparecer

simultaneamente porque sua presença é necessária para uma dada

característica que não é compartilhada por todas as proteínas da família. Um

caso interessante é o da família das lisozimas e alfa-lactalbuminas. As primeiras

são enzimas capazes de catalisar uma reação (a hidrólise de ligações em

componentes da parede celular de bactérias), tendo como resíduos catalíticos

um aspartato e um glutamato (D52 e E35). As últimas, apesar de serem

homólogas às primeiras, tem outra função (são a subunidade regulatória da

lactose sintase), e portanto não precisam destes resíduos. O resultado é que há

uma forte correlação entre a presença de aspartatos na posição 52 e

glutamatos na posição 35. Efeito semelhante ocorreria se, numa dada família

de proteínas, algumas possuem um sitio de ligação a metal e outras não[1], ou

se alguns membros de uma família apresentam pontes dissulfeto ligando duas

posições[2], etc.

Neste curso, focaremos em métodos que ajudem a descobrir resíduos

funcionalmente importantes em uma família de proteínas, como descrito no item

acima. Caso o leitor tenha interesse, é importante saber que há hoje excelentes

métodos voltados à busca de resíduos em contato, como o algoritmo PSICOV [3].

A metodologia utilizada nesse curso para a parte computacional será a DRCN (do

inglês Decomposition of residue correlation networks, ou Decomposiçãoo de redes

de correlação de resíduos). O material do curso acompanha o artigo original que

descreve esta metodologia em detalhes (Bleicher, Lemke & Garratt, 2011). De

forma sucinta, ela consiste nos seguintes passos:

1) Filtragem do alinhamento

Como a única entrada necessária para esse método é um alinhamento múltiplo de

sequência, é importante que ele seja uma amostra representativa da família, de

forma a evitar artefatos. Alinhamentos obtidos de forma automática (seja usando o

PFAM ou o BLAST) comumente apresentam problemas como a presença de

fragmentos, regiões mal alinhadas (esses dois problemas podem levar a resultados

espúrios) ou redundância (que exacerba o efeito de correlação devido ao efeito

filogenético).

2) Calculo de correlações

Para cada par resíduo-posição (exemplo, D13 e R22) com suficiente amostragem,

calcula-se um escore de correlação associado. Escores positivos indicam correlação:

um valor de 15 para o par D13-R22 indica que a presença de um aspartato na

posição 13 aumenta a frequência de argininas na posição 22, e a probabilidade

desse aumento ser ao acaso é menor que 10-15. Já escores negativos indicam anti-

correlação: a presença de um resíduo diminui a frequência do segundo e

novamente o logaritmo da probabilidade é usado como escore, mas com sinal

negativo para denotar a anti-correlação: em um escore de -18, a probabilidade da

diminuição da frequência ter sido ao acaso é menor que 10-18.

Se calcularmos todos os escores possíveis para um alinhamento e tomarmos

aqueles mais significativos (acima de um valor de corte), é possível construir uma

rede de correlações, em que nós da rede são combinações resíduo-posição (e.g.,

D13) e conexões na rede indicam correlação ou anti-correlação significativa. Um

exemplo de rede está mostrada na figura 2.

Figura 2: Rede de correlações em superóxido dismutases de Fe/Mn [4].Linhas cheias indicam

correlação positiva, linhas tracejadas indicam anti-correlação.

3) Decomposição da rede

Uma rede como a da figura acima pode ser decomposta em comunidades, isto é,

conjuntos de resíduos altamente conectados entre si mas não ao resto da rede. O

significado biológico dessas comunidades é que elas representam grupos de

resíduos que tendem a aparecer simultaneamente em um subconjunto da família

de proteínas. Muitas vezes, isso se deve a uma dada característica de uma sub-

classe, como por exemplo um sítio de ligação a metal, um conjunto de resíduos

catalíticos, uma interface de interação, etc. A decomposição da rede da figura 1

pode ser vista abaixo:

Figura 3: Decomposição da rede de correlações em Fe/Mn-SODs[4]. Resíduos têm a numeração da

SOD de Tripanossoma brucei, e são coloridos de acordo com a comunidade (e.g., R175 e V162, em

amarelo, formam uma comunidade, pois estão conectados entre si mas não ao resto da rede).

Linhas verdes indicam correlação, linhas vermelhas anti-correlação.

4) Geração de arquivos de visualização auxiliares

Nessa fase, vários arquivos são gerados de forma a facilitar o entendimento dos

resultados pelo usuário, mapeando as informações para diferentes sequencias ou

para arquivos de estrutura. As matrizes de autocorrelação, por exemplo, servem

para ilustrar a variação de frequência devido à presença de resíduos em outras

posições.

Figura 4: Matriz de autocorrelação para a comunidade em laranja mostrada na figura 3. A coluna

ALL indica a frequência dos aminoácidos da primeira coluna (e.g., 60.4% das SODs têm uma glicina

na posição 71), enquanto as outras colunas indicam essa frequência na presença de cada resíduo

em seu título (e.g., a frequência de glicinas na posição 71 sobe para 93.3% para as sequências que

têm uma metionina na posição 25).

Pode-se também gerar listas de resíduos conservados e correlacionados (com a

numeração de quaisquer proteínas da família), indicar o quanto cada sequência é

representada por cada comunidade, ou gerar um script para o Pymol de forma a

mostrar os resíduos correlacionados, além de editar arquivos PDB para mostrar

conservação.

Bibliografia

1. Palmieri LDC, Lima LMTR, Freire JBB, Bleicher L, Polikarpov I, et al. (2010) Novel Zn2+-binding sites in human transthyretin: implications for amyloidogenesis and retinol-binding protein recognition. J Biol Chem 285: 31731–31741.

2. Watanabe L, De Moura PR, Bleicher L, Nascimento AS, Zamorano LS, et al. (2010) Crystal structure and statistical coupling analysis of highly glycosylated peroxidase from royal palm tree (Roystonea regia). J Struct Biol 169: 226–242.

3. Jones DT, Buchan DWA, Cozzetto D, Pontil M (2012) PSICOV: precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments. Bioinformatics 28: 184–190. doi:10.1093/bioinformatics/btr638.

4. Bleicher L, Lemke N, Garratt RC (2011) Using Amino Acid Correlation and Community Detection Algorithms to Identify Functional Determinants in Protein Families. PLoS One 6: e27786. doi:10.1371/journal.pone.0027786.