45
Alinhamento de Seqüências Genéticas Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Fevereiro-2011

Alinhamento de Seqüências Genéticas

  • Upload
    cindy

  • View
    48

  • Download
    0

Embed Size (px)

DESCRIPTION

Alinhamento de Seqüências Genéticas. Fevereiro-2011. Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo. Introdução. Seqüências Genéticas. Seqüenciamento de DNA. - PowerPoint PPT Presentation

Citation preview

Page 1: Alinhamento de Seqüências Genéticas

Alinhamento de Seqüências Genéticas

Daniel Guariz Pinheiro, PhD.

Laboratório de Genética Molecular e BioinformáticaDepartamento de GenéticaFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo

Fevereiro-2011

Page 2: Alinhamento de Seqüências Genéticas

SEQÜÊNCIAS GENÉTICASIntrodução

Page 3: Alinhamento de Seqüências Genéticas

Seqüenciamento de DNA

1977

1986

Gilbert & Sanger

-Métodos para o seqüenciamento de DNA

- Seqüenciadorsemi-automático

Leroy Hood

1986-Seqüenciador automáticocomercial

2006

2005 2007

Roche/454 FLX ABI SOLiD

Illumina/Solexa Genome Analyzer

Helicos HeliScope

2008Applied Biosystems 2010

Pacific Biosciences

ION Torrent

20102002

Page 4: Alinhamento de Seqüências Genéticas

Nova Geração de Seqüenciadores de DNA

Roche/454 FLX Illumina/Solexa GA ABI SOLiDABI 3730xl

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Piroseqüenciamento Seqüenciamento por Síntese

Seqüenciamento por Ligação

Dados/run 290 Kb ~300 Mb ~7 Gb > 15 Gb

Tempo/run 1 hora 5 horas 3-7 dias 10 dias

Tamanho ~500 - 800 pb ~200 - 500 pb ~35-100 pb ~25 - 35 pb

Custo/run $48 $6.800 $9.300 $11.000

Runs Genoma 3Gb

312.500 ($15.000.000)

360 ($2.448.000)

59 ($548.700)

30 ($330.000)

Adap

ted

from

Ric

hard

Wils

on, S

choo

l of M

edic

ine,

Was

hing

ton

Univ

ersit

y, “S

eque

ncin

g th

e Ca

ncer

Gen

ome”

Page 5: Alinhamento de Seqüências Genéticas

Pares de base Seqüências

99.116.431.942 98.868.465

2008

Page 6: Alinhamento de Seqüências Genéticas

Sequence Read Archive

“(…) In mid-September 2010, the

SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)”(Leinonen R et. al., 2011)

“We’re growing by about 1 Tb/month.”NCBI’s staff scientist Martin Shumway

Page 7: Alinhamento de Seqüências Genéticas

Formato Fasta

>SEQUENCE_1cagtcagcatactcagtcagtcatgcatgctgagtcacttgcatgacgtcatgactgcatgactgc

sequence.fa

Extensões: .fa, .fasta, .fna

>SEQUENCE_11 9 7 15 20 21 16 26 31 37 38 ...31 13 23 29 31 33 35 30 29 34 ...

sequence.qual

Page 8: Alinhamento de Seqüências Genéticas

Qualidade

O que queremos dizer com qualidade ?

>SEQUENCE_11 9 7 15 20 21 16 26 31 37 38 ...31 13 23 29 31 33 35 30 29 34 ...

)(log10 10 errorphred PQ

Score Perro

10 0.1

20 0.01

30 0.001

Page 9: Alinhamento de Seqüências Genéticas

Formato fastq

@SOLEXA01:1:1:27:1992#0/1AGTACAAGAGACAGACATTCTTTTTTTTGACACAAG+SOLEXA01:1:1:27:1992#0/1\FFFMXPYDDHJSUMVUJLPSNFRXZEDLNLHKHIT

Formato fastq

sequence.fastq

Extensões: .fastq

Qualidade codificada como um único caracter da tabela ASCII.

SOLEXA01 the unique instrument name

1 flowcell lane

1 tile number within the flowcell lane

27 'x'-coordinate of the cluster within the tile

1992 'y'-coordinate of the cluster within the tile

#0 index number for a multiplexed sample (0 for no indexing)

/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

)1(log10 10

error

errorsolexa P

PQ

)(log10 10 errorphred PQ

Page 10: Alinhamento de Seqüências Genéticas

ATRIBUINDO SIGNIFICADO ÀS SEQÜÊNCIAS

Introdução

Page 11: Alinhamento de Seqüências Genéticas

Há uma referência?

• Reseqüenciamento– Existem seqüências produzidas a partir de um

genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência.

• Seqüenciamento de novo– Não há seqüências que podem ser usadas como referências.

Este tipo de seqüenciamento exigirá uma montagem (assembly) das seqüências, utilizando apenas os dados obtidos desse seqüenciamento. Alinhamento entre as seqüencias geradas, que permitirá a obtenção de um consenso.

Page 12: Alinhamento de Seqüências Genéticas

Seqüenciamento em pares• Seqüenciamento em pares

– mate-pair– paired-ends

(Kor

bel e

t al.

, 200

7)

>SOLEXA01:1:1:27:1992#0/1 >SOLEXA01:1:1:27:1992#0/2

Referência:~ 128 bp a ~428 bp

paired-ends

36 bp 36 bp

>SOLEXA02:1:1:11:1992#0/1 >SOLEXA02:1:1:11:1992#0/2

Referência:~ 1928 bp a 4928 bp

mate-pair

36 bp 36 bp

Page 13: Alinhamento de Seqüências Genéticas

Alinhamento de Seqüências

Em Bioinformática, alinhamento de seqüências é uma forma de dispor as seqüências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser conseqüência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.

Page 14: Alinhamento de Seqüências Genéticas

Significado Biológico do Alinhamento de Seqüências

• Definição de 3 termos importantes:– identidade: refere-se à fração de aminoácidos ou

nucleotídeos idênticos entre pares de seqüências após um alinhamento dessas seqüências;

– similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de seqüências após um alinhamento dessas seqüências;

– homologia: representa uma relação evolutiva entre as seqüências;

Page 15: Alinhamento de Seqüências Genéticas

Identificação das seqüências

• Reseqüenciamento– Alinhamento: Conjunto de Seqüências X Seqüências

Referências (Ex.: Genoma)>seq1gcagtcagtcacacatgtca...>seq2cgcgcatgcgcgtactctat...>seq3tcgagcatcatcagtcgtca...>seq4tatgctttatagcgagtcat........

>chrXatcacacatgtcacatggtcagggcatcagtcagtcagtcatgcgcgcgcatgcgcgtactctatctcatgcgtcagtcatgcatgcgagcagtcatgcatgcatcgcactgcatcatacgtcatgcatgaa.....

Objetivos:- Eliminar as sequência sem hit- Eliminar as sequência com hits múltiplos (ambiguous)- Guardar as sequência com hit único (unambiguous)

Page 16: Alinhamento de Seqüências Genéticas

Montagem de seqüências• Seqüenciamento de novo

– Alinhamento: Conjunto de Seqüências X Conjunto de Seqüências

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

Consensus :Seq ASeq BSeq CSeq DSeq ESeq FSeq G

Page 17: Alinhamento de Seqüências Genéticas

ALGORITMOS PARA ALINHAMENTO DE SEQÜÊNCIAS

Introdução

Page 18: Alinhamento de Seqüências Genéticas

Alinhamentos de Seqüências• Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch)

• As seqüências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as seqüências possuem aproximadamente o mesmo tamanho.

Seq X : C A T T A G C A G C C T | . | | | | | Seq Y : - A G T A – - A G C - -

• Alinhamento Local (e.g. Algoritmo de Smith–Waterman)• Procura-se alinhar apenas as regiões mais similares, independente da

localização relativa de cada região.

Seq X [4,10]: T A G C A G C | | | | |Seq Y [3,7]: T A - - A G C

Alinhamentos (Global/Local) (DNA/Protein)• FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml)• EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)

Page 19: Alinhamento de Seqüências Genéticas

Problema• Transformar uma seqüência de caracteres em outra:

– Operações:• inserção• deleção• substituição

– Custo de operação:• Score de substituição• Penalidade para Gaps (inserção/deleção)

– Qual é a quantidade de operações mínima ?– Como achar a séries de operações que vai garantir que usamos a

quantidade de operações mínima ?

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

Page 20: Alinhamento de Seqüências Genéticas

Soluções

• Método força bruta (busca exaustiva)– Praticamente inviável

• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;

• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

• Por razões de tempo e espaço, não pode ser usado para alinhamento de sequências de larga escala;

• Utilizações de aproximações (heurísticas);• Geralmente, quanto mais rápida for a aproximação, mais

distante estará a resposta da solução “correta”;

Page 21: Alinhamento de Seqüências Genéticas

Matriz de Programação Dinâmica

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

D(i, j) = maxD(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch)D(i -1, j) + g (acima -> gap acima)D(i, j -1) + g (esquerda -> gap esquerda)

D(i-1,j-1) D(i-1,j)

D(i,j-1) D(i,j)

traceback

GG A

> Score (-2-1): -31 gap: -21 mismatch: -1

> Score(-1-2): -31 mismatch: -11 gap: -2

> Score(-4-2): -62 gaps: -41 gap: -2

GGA

GG A

Page 22: Alinhamento de Seqüências Genéticas

BLAST• Basic Local Alignment Search Tool• http://blast.ncbi.nlm.nih.gov/• Heurística: dicionário de palavras

E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases;

QUANTO MENOR... MELHOR!!!NÃO CONFUNDIR COM P-value (probabilidade)

Page 23: Alinhamento de Seqüências Genéticas

BLAT• BLAT—The BLAST-Like Alignment Tool• http://genome.ucsc.edu/• Estruturalmente diferente (BLAST)

– Além de outros pontos, o Blat constrói um índice do banco de dado de seqüências (database) (k-mers) e faz as buscas na seqüência a qual se deseja consultar (query);

• Blat é mais rápido, porém menos sensível;• Possui código especialmente para lidar com intros em alinhamentos RNA/DNA;• Comumente utilizado para localizar uma determinada seqüência no genoma ou determinar a

estrutura de exons de um RNA;• Pode ser utilizado para alinhar seqüências de Roche/454;

Page 24: Alinhamento de Seqüências Genéticas

Alinhamento de seqüências curtas

• BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: )

• Premissas:– Não precisamos de um alinhamento sofisticado

como SW;– Não precisamos de estatísticas com e-value;– Normalmente, sabemos a quantidade de

mismatches máximas que queremos;

Page 25: Alinhamento de Seqüências Genéticas

Alinhamentos baseados em Hashing table

• Idéia dos algoritmos de alinhamentos baseados em hashing tables:

genoma: acggcacgaggaactcgaatctgacgcatgcagtacta| ||| ||

read: agtcgtat

Se admitirmos 2 mismatches entre a minha sequência e o genoma.

Se separados em 4 fragmentos, vão existir pelo menos 2 fragmentos sem mismatches !

Page 26: Alinhamento de Seqüências Genéticas

seeds• 6 possibilidades de seeds, com no mínimo 2 fragmentos de

match perfeito

read: agtcgtat

--tc--at

--tcgt--

ag--gt--

ag----at

----gtat

agtc----

5

2

4

6

3

1

Page 27: Alinhamento de Seqüências Genéticas

Busca nas tabelas hash

• São construídas 6 listas das palavras achadas nas leituras;

• Para cada 6 possibilidades de palavra no genoma, procurar na lista determinada para ver se existe uma possibilidade de matching;

• Como buscar sequências das palavras nas listas de palavras?• Algoritmo de hashing• Possui uma função capaz de transformar uma

cadeia de caracteres (string) em valores (índices);

Page 28: Alinhamento de Seqüências Genéticas

Alinhamento de Seqüências com hashing

• Softwares– ELAND (Anthony. J. Cox, 2006, unpublished data), – MAQ (Li H et al., 2008)– SOAP (Li R et al., 2008)

• Características:– Para detectar mais mismatch, precisamos de mais seeds:

• Mais mismatch => mais tempo– Algoritmo mais sofisticado para o alinhamento vai requerer mais tempo:

• Indels/gaps => mais tempo• Problemas com hashing:

– Memória e tempo• Precisa de CPUs múltiplos com muita memória.

– Necessidade de métodos menos “glutões”

Page 29: Alinhamento de Seqüências Genéticas

Burrows–Wheeler• Algoritmo usado normalmente em softwares de

compressão (.bzip2)• Em alinhadores de seqüências:

– Bowtie (Langmead B et al., 2009)– BWA

• BWA-SHORT (Li H. and Durbin R., 2009)• BWA-SW (Li H. and Durbin R., 2010)

Transformation T => BWT(T)

Input AllRotations

Sort theRows Output

^BANANA@

^BANANA@@^BANANAA@^BANANNA@^BANAANA@^BANNANA@^BAANANA@^BBANANA@^

ANANA@^BANA@^BANA@^BANANBANANA@^NANA@^BANA@^BANA^BANANA@@^BANANA

BNN^AA@A

Inverse Transformation BWT(T) => T

Input

BNN^AA@A

Add 1 Sort 1 Add 2 Sort 2

BNN^AA@A

AAABNN^@

BANANA^BANAN@^A@

ANANA@BANANA^B@^

Add 3 Sort 3 Add 4 Sort 4

BANNANNA@^BAANAANA@^BA@^

ANAANAA@^BANNANNA@^BA@^B

BANANANANA@^^BANANANANA@@^BAA@^B

ANANANA@A@^BBANANANANA@^^BAN@^BA

Add 5 Sort 5 Add 6 Sort 6

BANANNANA@NA@^B^BANAANANAANA@^@^BANA@^BA

ANANAANA@^A@^BABANANNANA@NA@^B^BANA@^BAN

BANANANANA@^NA@^BA^BANANANANA@ANA@^B @^BANAA@^BAN

ANANA@ANA@^BA@^BANBANANANANA@^NA@^BA^BANAN@^BANA

Add 7 Sort 7 Add 8 Sort 8

BANANA@NANA@^BNA@^BAN^BANANAANANA@^ANA@^BA@^BANANA@^BANA

ANANA@^ANA@^BAA@^BANABANANA@NANA@^BNA@^BAN^BANANA@^BANAN

BANANA@^ NANA@^BA NA@^BANA ^BANANA@ ANANA@^B ANA@^BAN @^BANANA A@^BANAN

ANANA@^B ANA@^BAN A@^BANAN BANANA@^ NANA@^BA NA@^BANA ^BANANA@ @^BANANA

Output

^BANANA@

Page 30: Alinhamento de Seqüências Genéticas

Bowtie

• http://bowtie-bio.sourceforge.net– Burrows-Wheeler;• Reduz a quantidade de memória e de tempo para alinhar

sequências curtas;• Podem ser usadas seqüências Illumina e SOLiD

– Deficiências:• Não tem garantia de retornar todos os hits com

mismatches (exceto com opção --best)• Limite de 3 mismatches (demora mais)• Reads longos reduz a velocidade• Não tem indels

Page 33: Alinhamento de Seqüências Genéticas

BOWTIEIntrodução

Page 34: Alinhamento de Seqüências Genéticas

Bowtie Index Builder: bowtie-build

Usage: bowtie-build [options]* <reference_in> <ebwt_outfile_base> reference_in comma-separated list of files with ref sequences ebwt_outfile_base write Ebwt data to files with this dir/basenameOptions: -f reference files are Fasta (default) -c reference sequences given on cmd line (as <seq_in>) -C/--color build a colorspace index -a/--noauto disable automatic -p/--bmax/--dcv memory-fitting -p/--packed use packed strings internally; slower, uses less mem -B build both letter- and colorspace indexes --bmax <int> max bucket sz for blockwise suffix-array builder --bmaxdivn <int> max bucket sz as divisor of ref len (default: 4) --dcv <int> diff-cover period for blockwise (default: 1024) --nodc disable diff-cover (algorithm becomes quadratic) -r/--noref don't build .3/.4.ebwt (packed reference) portion -3/--justref just build .3/.4.ebwt (packed reference) portion -o/--offrate <int> SA is sampled every 2^offRate BWT chars (default: 5) -t/--ftabchars <int> # of chars consumed in initial lookup (default: 10) --ntoa convert Ns in reference to As --seed <int> seed for random number generator -q/--quiet verbose output (for debugging) -h/--help print detailed description of tool and its options --usage print this usage message --version print version information and quit

[/data/indexes]$ bowtie-build /data/hg18.fa hg18

$BOWTIE_INDEXES=“/data/indexes”

hg18.1.ebwthg18.2.ebwthg18.3.ebwthg18.4.ebwthg18.rev.1.ebwthg18.rev.2.ebwt

Page 35: Alinhamento de Seqüências Genéticas

Bowtie Index Inspector: bowtie-inspect

Usage: bowtie-inspect [options]* <ebwt_base> <ebwt_base> ebwt filename minus trailing .1.ebwt/.2.ebwt

By default, prints FASTA records of the indexed nucleotide sequences to standard out. With -n, just prints names. With -s, just prints a summary of the index parameters and sequences. With -e, preserves colors if applicable.

Options: -a/--across <int> Number of characters across in FASTA output (default: 60) -n/--names Print reference sequence names only -s/--summary Print summary incl. ref names, lengths, index properties -e/--ebwt-ref Reconstruct reference from ebwt (slow, preserves colors) -v/--verbose Verbose output (for debugging) -h/--help print detailed description of tool and its options --help print this usage message

[/data/indexes]$ bowtie-inspect -s hg18

Page 36: Alinhamento de Seqüências Genéticas

Bowtie Aligner: bowtieReporting: -k <int> report up to <int> good alignments per read (default: 1) -a/--all report all alignments per read (much slower than low -k) -m <int> suppress all alignments if > <int> exist (def: no limit) -M <int> like -m, but reports 1 random hit (MAPQ=0); requires --best --best hits guaranteed best stratum; ties broken by quality --strata hits in sub-optimal strata aren't reported (requires --best)Output: -t/--time print wall-clock time taken by search phases -B/--offbase <int> leftmost ref offset = <int> in bowtie output (default: 0) --quiet print nothing but the alignments --refout write alignments to files refXXXXX.map, 1 map per reference --refidx refer to ref. seqs by 0-based index rather than name --al <fname> write aligned reads/pairs to file(s) <fname> --un <fname> write unaligned reads/pairs to file(s) <fname> --max <fname> write reads/pairs over -m limit to file(s) <fname> --suppress <cols> suppresses given columns (comma-delim'ed) in default output --fullref write entire ref name (default: only up to 1st space)Colorspace: --snpphred <int> Phred penalty for SNP when decoding colorspace (def: 30) or --snpfrac <dec> approx. fraction of SNP bases (e.g. 0.001); sets --snpphred --col-cseq print aligned colorspace seqs as colors, not decoded bases --col-cqual print original colorspace quals, not decoded quals --col-keepends keep nucleotides at extreme ends of decoded alignmentSAM: -S/--sam write hits in SAM format --mapq <int> default mapping quality (MAPQ) to print for SAM alignments --sam-nohead supppress header lines (starting with @) for SAM output --sam-nosq supppress @SQ header lines for SAM output --sam-RG <text> add <text> (usually "lab=value") to @RG line of SAM headerPerformance: -o/--offrate <int> override offrate of index; must be >= index's offrate -p/--threads <int> number of alignment threads to launch (default: 1) --mm use memory-mapped I/O for index; many 'bowtie's can share --shmem use shared mem for index; many 'bowtie's can shareOther: --seed <int> seed for random number generator --verbose verbose output (for debugging) --version print version information and quit -h/--help print this usage message

Usage: bowtie [options]* <ebwt> {-1 <m1> -2 <m2> | --12 <r> | <s>} [<hit>]

<m1> Comma-separated list of files containing upstream mates (or the sequences themselves, if -c is set) paired with mates in <m2> <m2> Comma-separated list of files containing downstream mates (or the sequences themselves if -c is set) paired with mates in <m1> <r> Comma-separated list of files containing Crossbow-style reads. Can be a mixture of paired and unpaired. Specify "-" for stdin. <s> Comma-separated list of files containing unpaired reads, or the sequences themselves, if -c is set. Specify "-" for stdin. <hit> File to write hits to (default: stdout) Input: -q query input files are FASTQ .fq/.fastq (default) -f query input files are (multi-)FASTA .fa/.mfa -r query input files are raw one-sequence-per-line -c query sequences given on cmd line (as <mates>, <singles>) -C reads and index are in colorspace -Q/--quals <file> QV file(s) corresponding to CSFASTA inputs; use with -f -C --Q1/--Q2 <file> same as -Q, but for mate files 1 and 2 respectively -s/--skip <int> skip the first <int> reads/pairs in the input -u/--qupto <int> stop after first <int> reads/pairs (excl. skipped reads) -5/--trim5 <int> trim <int> bases from 5' (left) end of reads -3/--trim3 <int> trim <int> bases from 3' (right) end of reads --phred33-quals input quals are Phred+33 (default) --phred64-quals input quals are Phred+64 (same as --solexa1.3-quals) --solexa-quals input quals are from GA Pipeline ver. < 1.3 --solexa1.3-quals input quals are from GA Pipeline ver. >= 1.3 --integer-quals qualities are given as space-separated integers (not ASCII)Alignment: -v <int> report end-to-end hits w/ <=v mismatches; ignore qualities or -n/--seedmms <int> max mismatches in seed (can be 0-3, default: -n 2) -e/--maqerr <int> max sum of mismatch quals across alignment for -n (def: 70) -l/--seedlen <int> seed length for -n (default: 28) --nomaqround disable Maq-like quality rounding for -n (nearest 10 <= 30) -I/--minins <int> minimum insert size for paired-end alignment (default: 0) -X/--maxins <int> maximum insert size for paired-end alignment (default: 250) --fr/--rf/--ff -1, -2 mates align fw/rev, rev/fw, fw/fw (default: --fr) --nofw/--norc do not align to forward/reverse-complement reference strand --maxbts <int> max # backtracks for -n 2/3 (default: 125, 800 for --best) --pairtries <int> max # attempts to find mate for anchor hit (default: 100) -y/--tryhard try hard to find valid alignments, at the expense of speed --chunkmbs <int> max megabytes of RAM for best-first search frames (def: 64)

[/data]$ bowtie hg18 > -c "AGGAATTGCGGGAGGAAAATGGGTAGTTAGCTATTT,AGGGCCCATAGCAACAGATTTCTAGCCCCCTGAAGA" > --best --strata --tryhard -m 1

Page 37: Alinhamento de Seqüências Genéticas

CONSIDERAÇÕES FINAISConclusão

Page 38: Alinhamento de Seqüências Genéticas

Conclusão• Alinhamento global: Alinhamento de 2 sequências

com mesmo tamanho:– Algoritmo de Needleman-Wunsch

• Alinhamento local: Alinhamento de 2 seqüências, uma curta e a outra muito mas longa:– Algoritmo de Smith-Waterman

• Encontram o alinhamento mais provável;• Lentos para alinhamentos contra o genoma inteiro;• Baseados em um modelo matemático, os outros, são

baseados em heurísticas, sem prova formal de obtenção da solução ótima;

Page 39: Alinhamento de Seqüências Genéticas

Conclusão

• BLAST: Utiliza heurísticas (k-tuples);– Maior sensibilidade;– Possui estatísticas, o E-value além do Score;– Pode ser usado para Sanger (megablast), mas é muito lento

com seqüências Roche/454; • BLAT: Utiliza heurísticas (semelhante ao BLAST - índice

do banco de dados na memória)– Blat é mais rápido, porém menos sensível;– Lida melhor com intros em alinhamentos RNA/DNA, bom para

determinar estrutura de exons de RNAs;– Pode ser utilizado para alinhar seqüências de Roche/454;

Page 40: Alinhamento de Seqüências Genéticas

Conclusão• Next-Generation Sequence Alignments

– Primeiros programas: Hashing • Illumina e SOLiD;

– ELAND (Anthony. J. Cox, 2006, unpublished data), – MAQ (Li H et al., 2008)– SOAP (Li R et al., 2008)

• Requerem muita memória;• O nível de sensibilidade depende do programa e das opções;

– A partir de 2009: Burrows-Wheeler• Illumina e SOLiD;

– Bowtie (Langmead B et al., 2009)– BWA (Li H. and Durbin R., 2009)

• Requerem menos memória e são mais rápidos;

Page 41: Alinhamento de Seqüências Genéticas

Conclusão

• Novas plataformas de seqüenciamento irão surgir exigindo novos programas de alinhamento;

• Não há um programa perfeito para todas as situações;• É importante entender como os programas funcionam e

como a configuração pode influenciar os resultados;– Heurística utilizada;– Argumentos;

sensibilidaderapidez (tempo/memória)

Page 42: Alinhamento de Seqüências Genéticas

Visualização

• IGV (Genome Browser)– http://www.broadinstitute.org/software/igv/home– Formatos de arquivos:

• BAM, BED, Birdsuite Files, CBS, CN, Cytoband, FASTA, GCT, genePred, GFF, GISTIC, HDF5, IGV, LOH, MAF, PSL, MUT, RES, SAM, Sample Information, SEG, SNP, TAB, TDF, Track Line, Type Line, WIG

Page 43: Alinhamento de Seqüências Genéticas

[email protected] Guariz Pinheiro

Page 44: Alinhamento de Seqüências Genéticas

EXERCÍCIOFim

Page 45: Alinhamento de Seqüências Genéticas

Bowtie• http://lgmb.fmrp.usp.br/~daniel/downloads/cvbioinfo2011/

– cvbioinfo2011_p1.fa– cvbioinfo2011_p2.fa