Algoritmo BLAST

  • View
    342

  • Download
    0

Embed Size (px)

Transcript

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    Algoritmo BLAST

    Aluno: Marllus de Melo Lustosa

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    Sumrio:

    1. Alinhamento de sequncias 1.1. Alinhamento global 1.2. Alinha local 1.3. Global x Local 1.4. Alinhamento timo x heurstico 1.5. Ferramentas de alinhamento2. FASTA vs BLAST3. BLAST 3.1. Funcionamento do algoritmo 3.1.1. Semeadura

    3.1.2. Extenso

    3.1.3. Avaliao

    3.2. Famlia de programas BLAST-NCBI

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    1. Alinhamento de sequncias

    - Encontrar um grau de similaridade entre sequncias de nucleotdeos ou protenas.- Definir sequncias homlogas;- Definir fragmentos similares entre sequncias;- Determinar caractersticas entre sequncias;

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    1.1. Alinhamento global- Sequncias so alinhadas de ponta a ponta;- Pode incluir grandes pedaos com baixa similaridade;- til para comparar sequncias cujas semelhanas sejam

    esperadas em toda a sua extenso;

    Fig1. Exemplo de alinhamento global entre duas sequncias. [1]

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    1.2. Alinhamento local- So alinhados um ou mais segmentos com alta

    similaridade entre as sequncias;- til quando no se tem nenhum conhecimento sobre a

    semelhana entre as sequncias a comparar;

    Fig2. Exemplo de alinhamento local entre duas sequncias. [2]

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    1.3. Global x LocalGlobal: As sequncias so alinhadas de ponta a ponta;Local: Pedaos das sequncias que so comparados;

    Fig3. Exemplo de alinhamento global e local entre duas sequncias. [3]

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    1.4. Alinhamento timo x heursticoheurstica -- do dicionrio HouaissAcepes substantivo feminino 1 arte de inventar, de fazer descobertas; cincia que tem por objeto a descoberta dos fatos 1.1 Rubrica: histria. ramo da Histria voltado pesquisa de fontes e documentos 1.2 Rubrica: informtica. mtodo de investigao baseado na aproximao progressiva de um dado problema 1.3 Rubrica: pedagogia. mtodo educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar

    - Alinhamento timo: produz o melhor resultado computacionalmente possvel;

    - Alinhamento heurstico: produz um resultado o mais prximo possvel do resultado timo, mas, principalmente, produz um resultado de maneira muito veloz;

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    1.5. Ferramentas de alinhamento

    Tab1. Exemplo de alinhamento global e local entre duas sequncias. [3]

    Programa

    Tipo de Alinhamento

    Preciso do Alinhamento

    Nmero de seqncias a

    serem alinhadas

    BLAST2Sequences

    Local

    Heurstico

    2

    SWAT (Smith-Waterman)

    Local

    timo

    2

    ClustalW

    Global

    Heurstico

    N

    Multalin

    Global

    Heurstico

    N

    Needleman-Wunsch

    Global

    timo

    2

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    2. FASTA vs BLAST

    FASTP

    1985

    BLAST

    1990

    BLAST2

    1997

    - BLAST e FASTA so algoritmos de alinhamento local;- BLAST mais rpido que o FASTA;- BLAST mais preciso que o FASTA;- BLAST mais verstil e mais amplamente utilizado que o

    o FASTA;- Partem da ideia bsica: Um bom alinhamento contm

    subsequncias de identidade absoluta (pequenas palavras de similaridade exata) [5].

    FASTA

    1988

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3. BLAST- Basic Local Alignment Search Tool;- Ferramenta de alinhamento mais utilizada no mundo;- O artigo onde a ferramenta foi publicada o mais citado

    da histria das cincias biolgicas;- um algoritmo de alinhamento simples, heurstico e

    local;- Alinha um sequncia de entrada contra uma base de

    dados desejada;

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3. BLAST

    Tab2. Famlia de programas BLAST. [4 - Adaptada]

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1. Funcionamento do algoritmo- Consiste em 3 etapas heursticas:

    - Semeadura;- Separa a sequncia de busca em palavras;- Identifica onde comea o alinhamento;

    - Extenso;- Extende o alinhamento das sementes;

    - Avaliao;- Determina quais alinhamentos so significantes;

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.1. Semeadura- Dada uma sequncia de entrada, identifique todas as

    sequncias de um tamanho especfico (sementes).

    RGDMCQLVEx:

    RGDGDM

    DMCMCQ

    CQLQLV

    Sequncia de busca

    Sementes originais

    GEM . . . . . .EDM

    KGD . . . . . .TGD

    RCQ . . . . . .ECQ

    DME . . . . . .EMC

    KLV . . . . . .QEV

    CQE . . . . . .RGL

    Sementes adicionais

    No mximouma substituio

    na palavra

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.1. Semeadura- Comparar as sementes adicionais com a semente original

    correspondente, utilizando uma matriz de substituio (recomenda-se a matriz BLOSUM62 [6]).

    KGDQGDRGEEGDHGDNGDRGNAGDMGDRADRSQRGSRNDRSDSGDTGD

    RGD

    ================

    14 = 2 + 6 + 6 = (R-K) + (G-G) + (D+D)131312121212121111111111111111

    Valores de avaliao

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.1. Semeadura- Definir um valor mnimo de avaliao na seleo das sementes

    adicionais;- Padro BLAST, em geral, utilizado o valor 12 para palavras de

    tamanho 3;KGDQGDRGEEGDHGDNGDRGNAGDMGDRADRSQRGSRNDRSDSGDTGD

    ================

    14131312121212121111111111111111

    Palavras que sero excludas do conjunto das sementes

    vlidas

    Palavras vlidas

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.1. Semeadura- Conjunto de sementes vlidas para a busca no banco de dados:

    KGDQGDRGEEGDHGDNGDRGNAGD

    RGD

    Sementes originais + sementes adicionais

    Semente original

    Sementes adicionais

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.1. Semeadura- Realizar a busca pelas sementes no banco de dados (prioridade

    para sementes originais);

    GDM CQLSementes de busca: Sequncia encontrada no BD: EGDMKCQLW

    Ex:

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.2. Extenso- Extender o alinhamento das sementes;

    RGDM-CQLVSementes de busca: Sequncia encontrada no BD:

    EGDMKCQLW

    Ex:

    - Extende cada semente para a direita e para esquerda, considerando os seguintes critrios [7]:- A pontuao (score) da semente for maior que um valor T;- Possuir outra semente a uma certa distncia mxima entre elas;- O score da extenso com gaps tem pontuao normalizada de

    pelo menos Sg bits;

    - Muitas vezes necessrio adicionar gaps (buracos) para corrigir o alinhamento;- Gaps so vistos pelo BLAST como penalidades;- Quanto menos gaps, melhor o alinhamento;

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.2. Extenso- Extender o alinhamento das sementes;

    RGDM-CQLVSementes de busca: Sequncia encontrada no BD:

    EGDMKCQLW

    Ex:

    - HSPs (High-scoring Segment Pair): So alinhamentos locais que atingem os scores mais altos em uma busca;

    - MSPs (Maximal-scoring Segment Pair): So os maiores HSPs encontrados na busca;

    HSPs

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.3. Avaliao - Score bruto:

    S = soma(matches) soma(mismatches) soma(penalidades de gap)

    - Score normalizado (Bit score):

    S = (S ln K) / ln 2

    - E-value (probabilidade de alinha-

    mentos terem ocorrido ao

    acaso [2]):

    E(S) = Kmne-S

    ou

    E(S) = mn2-S

    m = Tamanho do banco de dadosn = Tamanho da sequncia de entrada = Escala da matriz de scoresK = Escala do tamanho do espao de busca

    Penalidades de gap:

    (gap open + gap extension) Gap open: definido um valorGap extension: definido um valor

    legenda

  • Marllus Lustosa

    Universidade Federal do Piau UFPIBacharelado em Cincia da ComputaoTpicos em Bioinformtica

    3.1.3. Avaliao

    Matches: 6*1 = 6Mismatches: 2*2 = 4Gap open: 1*5 = 5Gap extension: 1*2 = 2

    RGDM-CQLV EGDMKCQLW

    Sementes de busca: Seq