26
Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Embed Size (px)

Citation preview

Page 1: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamento de sequências

Prof. Dr. Francisco Prosdocimi

Page 2: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Definição O alinhamento de

sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade

Comparação de strings Identificação de substrings

compartilhadas

Uma das mais poderosas técnicas da bioinformática

Page 3: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Tipos de alinhamento

• Simples X Múltiplo

• Local X Global

• Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78

Identities = 139/139 (100%)

Strand = Plus / Plus

Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

Query: 446 gcgaaacttctctcagaaa 464

|||||||||||||||||||

Sbjct: 680 gcgaaacttctctcagaaa 698

Page 4: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamento Simples

• Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas

Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Interpretando os valores

Page 5: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamento múltiplo

• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas

Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

Page 6: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamentos Global e Local

• Global: as seqs são alinhadas de ponta a ponta• Local: pedaços das seqs é que são comparados

Qual deles é melhor?

Page 7: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamentos ótimo e heurístico

• heurística -- do dicionário HouaissAcepções¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a

descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado

problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se

lhe quer ensinar LOGO:

• Alinhamento ótimo: produz o melhor resultado computacionalmente possível

• Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

Page 8: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Ferramentas de alinhamento

Programa Tipo de Alinhamento

Precisão do Alinhamento

Número de seqüências a serem alinhadas

BLAST2Sequences Local Heurístico 2

SWAT (Smith-Waterman)

Local Ótimo 2

ClustalW Global Heurístico N

Multalin Global Heurístico N

Needleman-Wunsch Global Ótimo 2

Page 9: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Elementos de um alinhamento

Page 10: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Matrizes de substituição

• Definem pontuação específica específica para a troca entre símbolos

• Qual a diferença entre as duas matrizes ao lado

• Modelos de substituição– Jukes-Cantor X Kimura

A C G T

A 1 -2 -2 -2

C -2 1 -2 -2

G -2 -2 1 -2

T -2 -2 -2 1

A C G T

A 1 -2 -1 -2

C -2 1 -2 -1

G -1 -2 1 -2

T -2 -1 -2 1

Page 11: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Matrizes de substituição de aminoácidos

Page 12: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Outros parâmetros

• Matrizes de substituição definem a pontuação para matches e mismatches

• A penalidade de abertura e extensão de gaps também é importante

• Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução– Não deve ser utilizado a menos que se saiba o que

se está fazendo

Page 13: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

BLAST

Prof. Dr. Francisco Prosdocimi

Page 14: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

BLAST

• Basic Local Alignment Search Tool• Ferramenta de alinhamento mais utilizada no mundo• Todo pesquisador em biologia molecular já usou

alguma vez (ou centenas de vezes)• Diz-se que o trabalho original onde a ferramenta foi

publicada é o mais citado da história das ciências biológicas

• É um algoritmo de alinhamento simples, heurístico e local

• Alinha um seqüência de entrada contra uma base de dados desejada

Page 15: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Sub-programas BLAST

Formato da Seqüência de

Entrada

Banco de dados

Formato da seqüência que é comparado

Programa BLAST

adequado

Nucleotídeos Nucleotídeos Nucleotídeos BLASTn

Proteínas Proteínas Proteínas BLASTp

Nucleotídeos Proteínas Proteínas BLASTx

Proteínas Nucleotídeos Proteínas TBLASTn

Nucleotídeos Nucleotídeos Proteínas TBLASTtx

Page 16: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

BLAST, funcionamento• Heurístico

• Define um tamanho de palavra chamado seed (semente)

– Blastn = 11; Megablast = 28– Blastx = 3;

• Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query

• Alonga a extremidade da seed até onde o alinhamento seja “bom”

• Metodologia verdadeiramente rápida

• E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB

Page 17: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Bases de dados BLAST

• Apresentam um formato especial• As sequências no formato FASTA devem ser

formatadas usando um programa especial (formatdb)– Cria uma base de dados com todas as seeds possíveis e as

sequências que as contém– Dados da base de dados estão pré-computados (velocidade)

• O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto

>gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS

BlastDB

Query and

Subject

Page 18: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

BLAST em LINUX

• Download dos programas executáveis BLAST através do NCBI

• Permite que o usuário monte sua própria base de dados específica para um projeto

• Permite parametrização detalhada

$> formatdb –i cog.fasta –p T –n COG

$> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62

Page 19: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamentos múltiplos

Prof. Dr. Francisco Prosdocimi

Page 20: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

conservation profile

conserved residues

secondary structure

What is a multiple alignment?

Page 21: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Blocos conservados

DbClustal

• Blocos conservados– Domínios funcionais– Sítios catalíticos de enzimas– Assinaturas de famílias gênicas

Page 22: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamentos múltiplos

• Problema altamente complexo• Teoria da complexidade de algoritmos

– O valor de O

• Problema NP-completo (NP-hard)– Aumentando o número de sequências (ou o tamanho

das sequências), o aumento no tempo de computação sobe exponencialmente

• Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN

Page 23: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Alinhamentos múltiplos e homologia

Page 24: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Do alinhamento à filogenia

• Métodos fenéticos

• Montagemda matrix dedistância

Example in Clustalx :

distance between 2 sequences = 1- No. identical residuesNo. aligned residues

-.17 -.59 .60 -.59 .59 .13 -.77 .77 .75 .75 -.81 .82 .73 .74 .80 -.87 .86 .86 .88 .93 .90 -

Hbb_humanHbb_horseHba_humanHba_horseMyg_phycaGlb5_petmaLgb2_lupla

1234567

1 2 3 4 5 6 7

Page 25: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Produção da árvore

• Método fenético– Não considera a evolução de cada caráter (coluna no

alinhamento)– Produz uma árvore a partir de uma matriz de distância gerada

ao considerar todo o conjunto de dados

• Vizinhos mais-próximos– Neighbor-joining

• Average neighbor

• Nearest neighbor

• Farthest neighbor

Hbb_human

Hbb_horse

Hba_human

Hba_horse

Myg_phyca

Glb5_petma

Lgb2_lupla

13

45

6

2.081

.084

.055

.065

.226

.219

.398

.389

.442

.015

.061

.062

Page 26: Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Conclusões

• O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática

• Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos

• O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente