Upload
internet
View
104
Download
0
Embed Size (px)
Citation preview
Análise Computacional de Seqüências Nucleotídicas e Protéicas
BLASTAntonio Basílio de Miranda
24/11/2004
BLAST – Basic Local Alignment and Search Tool Provavelmente a ferramenta computacional mais
utilizada em biologia molecular e bioinformática Busca seqüências armazenadas nos bancos de
dados pela similaridade entre a estrutura primária da seqüência query e as armazenadas
Anotações (características) descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes
O maior problema é definir um “cut-off”, limite onde as similaridades encontradas entre a query e os hits não sejam mais significativos
BLAST – Basic Local Alignment and Search Tool
É um método heurístico para alinhamentos locais
Projetado especificamente para buscas em bancos de dados
Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais
BLAST
Existem vários “sabores” e tipos de BLAST: Nucleotídeo Proteína Traduzido Genomas
BLAST
Nucleotídeo: Nucleotídeo-nucleotídeo (blastn) Megablast Megablast descontínuo Busca por hits curtos e quase
perfeitos Busca em cromatogramas
BLAST Proteína:
Proteína-proteína (blastp) PHI-BLAST e PSI-BLAST (através da
obtenção de perfis) Busca por hits curtos e quase perfeitos Busca no banco de dados de domínios
conservados (rps-blast) (Smart, PFam e COG)
Busca pela arquitetura de domínios (cdart)
PHI-BLAST e PSI-BLAST
PHI-BLAST: Quais outras seqüências protéicas contém tanto a ocorrência do padrão P e são homólogas a query P na vizinhança das ocorrências dos padrões?
PSI-BLAST: Construção de uma matriz de valores posição-específica (position specific scoring matrix, PSSM)
BLAST
Traduzido: query traduzida x banco de dados de
proteínas (blastx) query de proteína x banco de dados
traduzido (tblastn) query traduzida x banco de dados
traduzido (tblastx)
BLAST Genomas:
Galinha, vaca, porco, cachorro, ovelha, gato Amostras ambientais Homem, camundongo, rato Fugu rubripes, zebrafish Insetos, nematódeos, plantas, fungos,
malária Genomas microbianos, outros genomas
eucarióticos
BLAST - algoritmo 1. Filtrar as regiões de baixa
complexidade 2. Criar as query words (de
comprimento 3 para sequências protéicas e 11 para DNA) através do uso de uma janela deslizante
MEF EFP FPG PGL GLG
MEFPGLGSLGTSEPLPQFVDPALVSS
BLAST - algoritmo
3. Utilizando uma matriz de substituição (PAM, BLOSUM), contar todas as possíveis palavras de tamanho 3 ou 11 contra a query
4. Selecionar um limite (neighborhood word score threshold - T) para manter as sequências mais significativas (normalmente umas 50 por query)
(Parênteses – matrizes de substituição) O que é uma matriz de substituição? É uma matriz representando todas as
possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas
Esses valores são obtidos através da contagem dessas trocas tomando-se como base umdeterminado modelo evolutivo
Parênteses – matrizes de substituição)
BLAST - algoritmo
5. Repetir os passos 3 e 4 para cada query word no passo 2
6. Organizar as palavras de alta pontuação em uma árvore de busca
M
E
F
E
GP
BLAST - algoritmo 7. Procurar em cada sequência no banco
de dados uma combinação com uma query word de alta pontuação. Cada combinação será uma “semente” para um alinhamento sem gaps.
8. Extensão das combinações 8.1. BLAST original: extensão das
combinações à esquerda e à direita da “semente” usando alinhamentos sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. Esta extensão é o chamado HSP (High Scoring Pair).
BLAST - algoritmo
8.2. Atualmente: combinações ao longo da mesma diagonal (Dot plot) com uma distância A entre as duas são reunidas e a extensão se dá com a sequência maior.
9. Utilizando uma contagem limite S, manter somente as combinações estendidas com score mínimo igual a S.
BLAST - algoritmo
10. Determinar a significância estatística de cada combinação remanescente
11. Tentar estender os HSPs de cada combinação remanescente
12. Mostrar os alinhamentos locais (dea cordo com Smith-Waterman).
(Parênteses – matrizes de homologia)
Resultado (BLASTN)
Resultado (formatação)
Resultado (BLASTN) O output é dividido em cinco partes: 1. Um header contendo a versão do BLAST, data
da compilação, referência, RID, etc. 2. Uma visão gráfica dos alinhamentos 3. Um sumário com uma descrição em uma linha
de cada hit 4. Os alinhamentos 5. Rodapé com a descrição detalhada dos
parâmetros de busca empregados, o banco de dados, etc.
Existem várias opções de formatação dos resultados.
Resultado (header)
Resultado (graphical overview)
Resultado (one-line descriptions)
Resultado (links)
G: Gene U: UniGene E: GEO Profile (dados de expressão
gênica e hibridização genômica obtidos por tecnologia high-throughput)
Resultado (alignments)
HSP – High Scoring Pairs Segmentos onde o alinhamento
possui alta qualidade
>gi|50363246|gb|AY661748.1| Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds Length = 1452 Score = 278 bits (140), Expect = 1e-71 Identities = 203/224 (90%) Strand = Plus / Plus Query: 19 tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78 |||||||| |||||||| |||||||||||||||||||| ||||| |||||||| |||||| Sbjct: 2 tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61 Query: 79 tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctgtgagagaa 138 |||||||||||||| ||||| ||| ||||||| || ||||| |||||||||||||||||| Sbjct: 62 tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121 Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198 || |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| || Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181 Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242 |||||||||| ||| ||||||||||| ||||||| |||||||| Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225
Score = 48.1 bits (24), Expect = 0.024 Identities = 33/36 (91%) Strand = Plus / Plus Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564 ||||| ||||| ||||||||||||||||| |||||| Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544
Score = 46.1 bits (23), Expect = 0.095 Identities = 32/35 (91%) Strand = Plus / Plus Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401 ||||||||||| |||||||| |||||||| ||||| Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381
HSPs
Resultado (footer)
CDART