Upload
internet
View
133
Download
20
Embed Size (px)
Citation preview
Alinhamento de sequências
Prof. Dr. Francisco Prosdocimi
Definição O alinhamento de
sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade
Comparação de strings Identificação de substrings
compartilhadas
Uma das mais poderosas técnicas da bioinformática
Tipos de alinhamento
• Simples X Múltiplo
• Local X Global
• Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698
Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas
Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
Interpretando os valores
Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas
Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
Alinhamentos Global e Local
• Global: as seqs são alinhadas de ponta a ponta• Local: pedaços das seqs é que são comparados
Qual deles é melhor?
Alinhamentos ótimo e heurístico
• heurística -- do dicionário HouaissAcepções¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a
descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado
problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se
lhe quer ensinar LOGO:
• Alinhamento ótimo: produz o melhor resultado computacionalmente possível
• Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz
Ferramentas de alinhamento
Programa Tipo de Alinhamento
Precisão do Alinhamento
Número de seqüências a serem alinhadas
BLAST2Sequences Local Heurístico 2
SWAT (Smith-Waterman)
Local Ótimo 2
ClustalW Global Heurístico N
Multalin Global Heurístico N
Needleman-Wunsch Global Ótimo 2
Elementos de um alinhamento
Matrizes de substituição
• Definem pontuação específica específica para a troca entre símbolos
• Qual a diferença entre as duas matrizes ao lado
• Modelos de substituição– Jukes-Cantor X Kimura
A C G T
A 1 -2 -2 -2
C -2 1 -2 -2
G -2 -2 1 -2
T -2 -2 -2 1
A C G T
A 1 -2 -1 -2
C -2 1 -2 -1
G -1 -2 1 -2
T -2 -1 -2 1
Matrizes de substituição de aminoácidos
Outros parâmetros
• Matrizes de substituição definem a pontuação para matches e mismatches
• A penalidade de abertura e extensão de gaps também é importante
• Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução– Não deve ser utilizado a menos que se saiba o que
se está fazendo
BLAST
Prof. Dr. Francisco Prosdocimi
BLAST
• Basic Local Alignment Search Tool• Ferramenta de alinhamento mais utilizada no mundo• Todo pesquisador em biologia molecular já usou
alguma vez (ou centenas de vezes)• Diz-se que o trabalho original onde a ferramenta foi
publicada é o mais citado da história das ciências biológicas
• É um algoritmo de alinhamento simples, heurístico e local
• Alinha um seqüência de entrada contra uma base de dados desejada
Sub-programas BLAST
Formato da Seqüência de
Entrada
Banco de dados
Formato da seqüência que é comparado
Programa BLAST
adequado
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn
Proteínas Proteínas Proteínas BLASTp
Nucleotídeos Proteínas Proteínas BLASTx
Proteínas Nucleotídeos Proteínas TBLASTn
Nucleotídeos Nucleotídeos Proteínas TBLASTtx
BLAST, funcionamento• Heurístico
• Define um tamanho de palavra chamado seed (semente)
– Blastn = 11; Megablast = 28– Blastx = 3;
• Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query
• Alonga a extremidade da seed até onde o alinhamento seja “bom”
• Metodologia verdadeiramente rápida
• E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB
Bases de dados BLAST
• Apresentam um formato especial• As sequências no formato FASTA devem ser
formatadas usando um programa especial (formatdb)– Cria uma base de dados com todas as seeds possíveis e as
sequências que as contém– Dados da base de dados estão pré-computados (velocidade)
• O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto
>gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS
BlastDB
Query and
Subject
BLAST em LINUX
• Download dos programas executáveis BLAST através do NCBI
• Permite que o usuário monte sua própria base de dados específica para um projeto
• Permite parametrização detalhada
$> formatdb –i cog.fasta –p T –n COG
$> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62
Alinhamentos múltiplos
Prof. Dr. Francisco Prosdocimi
conservation profile
conserved residues
secondary structure
What is a multiple alignment?
Blocos conservados
DbClustal
• Blocos conservados– Domínios funcionais– Sítios catalíticos de enzimas– Assinaturas de famílias gênicas
Alinhamentos múltiplos
• Problema altamente complexo• Teoria da complexidade de algoritmos
– O valor de O
• Problema NP-completo (NP-hard)– Aumentando o número de sequências (ou o tamanho
das sequências), o aumento no tempo de computação sobe exponencialmente
• Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN
Alinhamentos múltiplos e homologia
Do alinhamento à filogenia
• Métodos fenéticos
• Montagemda matrix dedistância
Example in Clustalx :
distance between 2 sequences = 1- No. identical residuesNo. aligned residues
-.17 -.59 .60 -.59 .59 .13 -.77 .77 .75 .75 -.81 .82 .73 .74 .80 -.87 .86 .86 .88 .93 .90 -
Hbb_humanHbb_horseHba_humanHba_horseMyg_phycaGlb5_petmaLgb2_lupla
1234567
1 2 3 4 5 6 7
Produção da árvore
• Método fenético– Não considera a evolução de cada caráter (coluna no
alinhamento)– Produz uma árvore a partir de uma matriz de distância gerada
ao considerar todo o conjunto de dados
• Vizinhos mais-próximos– Neighbor-joining
• Average neighbor
• Nearest neighbor
• Farthest neighbor
Hbb_human
Hbb_horse
Hba_human
Hba_horse
Myg_phyca
Glb5_petma
Lgb2_lupla
13
45
6
2.081
.084
.055
.065
.226
.219
.398
.389
.442
.015
.061
.062
Conclusões
• O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática
• Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos
• O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente