Upload
buicong
View
214
Download
0
Embed Size (px)
Citation preview
27/07/2011
1
Explorando bancos de dados genômicos e introdução à
bioinformática
22/07/2011
Guilherme Targino Valente Marcos Tadeu Geraldo
Bioinformática
• É a aplicação de estatística e ciência da computação no campo
da Biologia Molecular
• O termo foi cunhado por Paulien Hogeweg e Ben Hesper em
1978 no estudo de processos de informática em sistemas
bióticos
Paulien Hogeweg
27/07/2011
2
Objetivo da Bioinformática
Aumentar o entendimento dos processos
biológicos
Bioinformática atualmente
• Criação e avanços em:
• banco de dados
• algoritmos
• técnicas computacionais
• estatísticas
• Finalidade: solucionar problemas teóricos e
práticos oriundos da manipulação e análise de
dados biológicos
27/07/2011
3
BIOINFORMÁTICA
Sequências
Genomas
Evolução
Regulação e expressão
gênica
Modelagem biológica
Estrutura molecular
27/07/2011
4
Importância da Análise de Sequências
• Comparação de sequências para analisar suas semelhanças e diferenças
• Análise da estrutura de genes: matrizes de leitura, distribuição de introns e exons e elementos regulatórios
• Busca por pontos de mutação, a fim utilizá-los como marcadores genéticos
• Informações sobre evolução e diversidade genética entre organismos
• Análise da funcionalidade de genes
Como recuperar sequências
dentro de um banco de dados
27/07/2011
5
FASTA
Programa de alinhamento e análise de
sequências criado por W.R. Pearson e D.J.
Lipman em 1988
Formato da sequência:
> nome_da_sequência
ARCGTCRGCKINTANDRGCKINTANDCKINTAN
DARCGTCRGCKINTANDRGCKINTAND
Linha de definição
Sequência
27/07/2011
6
27/07/2011
7
27/07/2011
8
27/07/2011
9
27/07/2011
10
27/07/2011
11
Como obter sequências
experimentalmente?
Gene ou sequência de interesse
Restrição Enzimática
Reação em cadeia da polimerase (PCR)
http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi
27/07/2011
12
27/07/2011
13
27/07/2011
14
Conseguimos as sequências...
...E AGORA?
Próximo passo,
27/07/2011
15
Alinhamento de sequências
• O que é? = um alinhamento de sequências é uma forma de organizar sequências primárias de DNA, RNA ou proteínas
• Por que alinhar? = identificar regiões similares que possam ser consequência de relações funcionais, estruturais ou evolucionárias entre elas
Homologia x Similaridade
Valor Qualitativo
Valor Quantitativo
Homólogo Não-homólogo
Valor de inferência
27/07/2011
16
2 sequências de um
alinhamento
Compartilham ancestral comum
Discordâncias entre as
sequências (mismatches)
Mutações pontuais
Espaços (gaps)
Inserções ou deleções
(indels)
SE,
Alinhamento: Global x Local
27/07/2011
17
Alinhamento: Par a par (pairwise alignment)
Múltiplo (multiple alignment)
27/07/2011
18
Algoritmos de alinhamento
ClustalW
MUSCLE
T-COFFEE
COBALT
MAFFT
PRRN
E muitos outros...
27/07/2011
19
CLUSTALW (http://www.ebi.ac.uk/Tools/msa/clustalw2/)
MUSCLE (http://www.ebi.ac.uk/Tools/msa/muscle/)
27/07/2011
20
COBALT (http://www.ncbi.nlm.nih.gov/tools/cobalt/)
27/07/2011
21
27/07/2011
22
27/07/2011
23
BLAST Basic Local Alignment Search Tool
O que é? = é um algoritmo para acessar um banco de dados e buscar sequências de aminoácidos ou nucleotídeos que sejam similares a uma sequência-alvo específica
Qual o objetivo do BLAST? = comparar informações de sequências biológicas primárias
www.ncbi.nlm.nih.gov/BLAST/
Tipos de BLAST Query (sequência-
alvo)
Hits (sequências
retornadas)
blastn Nucleotídeos Nucleotídeos
blastp Aminoácidos Aminoácidos
blastx Nucleotídeos (Seis
matrizes de leitura) Aminoácidos
tblastn Nucleotídeos (Seis
matrizes de leitura)
Nucleotídeos (Seis
matrizes de leitura)
tblastx Aminoácidos Nucleotídeos (Seis
matrizes de leitura)
Tipos de BLAST
27/07/2011
24
VALOR DE
CONFIANÇA
chance do
acaso
Valor de E Confiança
AGTTTAGAGATTCCGCCTGGCGCTGGAAGAGATCAGG Query
27/07/2011
25
AGTTTAGAGATTCCGCCTGGCGCTGGAAGAGATCAGG
CCGCCTGG
Query
Hit 1
AGTTTAGAGATTCCGCCTGGCGCTGGAAGAGATCAGG
CCGCCTGG
GAGATTCCACCTGGCCATGGAAGAGA
Query
Hit 2
Hit 1
27/07/2011
26
27/07/2011
27
27/07/2011
28
27/07/2011
29
27/07/2011
30
OUTRAS
FERRAMENTAS PARA
ANALISAR
SEQUÊNCIAS
ORF Finder
http://www.ncbi.nlm.nih.gov/gorf/gorf.html
ORF = Open Reading Frame
27/07/2011
31
ATGCCATGCGATGTTTGAGCATCTA...
ATG CCA TGC GAT GTT TGA
A TGC CAT GCG ATG TTT GAG CAT...
AT GCC ATG CGA TGT TTG AGC ATC...
RF 1
RF 2
RF 3
ATGCCATGCGATGTTTGAGCATCTA...
ATG CCA TGC GAT GTT TGA
A TGC CAT GCG ATG TTT GAG CAT...
AT GCC ATG CGA TGT TTG AGC ATC...
RF 1
RF 2
RF 3
27/07/2011
32
ATGCCATGCGATGTTTGAGCATCTA...
ATG CCA TGC GAT GTT TGA
A TGC CAT GCG ATG TTT GAG CAT...
AT GCC ATG CGA TGT TTG AGC ATC...
RF 1
RF 2
RF 3
ATGCCATGCGATGTTTGAGCATCTA...
ATG CCA TGC GAT GTT TGA
A TGC CAT GCG ATG TTT GAG CAT...
AT GCC ATG CGA TGT TTG AGC ATC...
RF 1
RF 2
RF 3
27/07/2011
33
27/07/2011
34
27/07/2011
35
27/07/2011
36
27/07/2011
37
Transeq
• Traduz em aminoácidos uma sequência de nucleotídeos
• http://www.ebi.ac.uk/Tools/emboss/transeq/
27/07/2011
38
Busca por Motifs
• Motif (ou domínio): é um padrão de sequência de nucleotídeo ou aminoácido, normalmente associada a alguma significância biológica
GENE MOTIF
SEQUÊNCIA DE NUCLEOTÍDEOS OU AMINOÁCIDOS
27/07/2011
39
pFam
• Banco de dados de famílias de proteínas
• Busca e alinhamento de motifs característicos de cada família
• http://pfam.sanger.ac.uk/
27/07/2011
40
27/07/2011
41
(http://hits.isb-sib.ch/cgi-bin/PFSCAN)
27/07/2011
42
(http://www.genome.jp/tools/motif/)
27/07/2011
43
27/07/2011
44
Bibliografia em Bioinformática
Bibliografia em Bioinformática
27/07/2011
45
Bibliografia em Bioinformática
Bibliografia em Bioinformática
27/07/2011
46
For Dummies Collection