Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Bioinformática Básica
Rafael Dias Mesquita [email protected]
Laboratório de Bioinformática
Departamento de Bioquímica Instituto de Química - UFRJ
Apresentação de ferramentas e informações básicas em bioinformática, incluindo: v Softwares Básicos
• Firefox e o complemento biobar. • Bloco de notas, textpad. (NUNCA o word!!!!!) • Editores de sequências (bioedit).
v Formato de sequências • Problema do fim de linha • Fasta, genbank...
v Edição de sequencias
Objetivo
A bioinformática é uma ferramenta que nos possibilita extrair sentido do mar de dados biológicos que tornam-se
disponíveis diariamente.
O Que é Bioinformática ?
Informação = dado interpretado.
O Que é Bioinformática ?
BIO
Hardware x Software
Bioquímica Básica
Tópicos básicos que vocês devem dominar: • Estrutura do DNA. • Pareamento A-T e C-G. • Para bioinformática quase sempre U e T são representados como T. • Número de pontes de hidrogênio entre os nucleotídeos. • Código genético degenerado e tradução. • Frames de leitura • Característica química dos Aas. • Estrutura de proteínas • Domínios conservados
Degeneração do código genético
Frames de Leitura
Frame +1
Frame +2
Frame +3
Estrutura de proteínas
Domínios conservados
calmodulina subunidade β da proteína G
proteína Src proteína Sem5 PLC-δ
FIREFOX
Download do firefox https://www.mozilla.org/pt-BR/firefox/new/ Instalação do complemento BIOBAR Clicar em: Ferramentas -> complementos Buscar o termo “biobar” e clicar no botão instalar correspondente Reiniciar o firefox
FIREFOX - Biobar
FIREFOX - Biobar
FIREFOX - Biobar
FIREFOX - Biobar
Editor de texto x Word
Você acha que Word é bom para a bioinformática?
Editor de texto x Word
Você acha que Word é bom para a bioinformática?
Editor de texto x Word
Você acha que Word é bom para a bioinformática? Usar bloco de notas ou TEXTPAD ou equivalente !!!!
TextPad
TextPad
Para marcar colunas mantenha a tecla “Alt” pressionada no teclado e marque com o mouse
Editor de sequências
Bioedit para windows: http://www.mbio.ncsu.edu/bioedit/bioedit.html
BIOEDIT
O problema do final de linha:
Formato de Sequências
Imagine o fim de uma conversa: Avô usa “Adeus”, pai usa “Tchau” o adolescente usa “Valeu”. Eles se entendem? Windows x Mac x linux O final de linha sempre é sinalizado por um caractere especial (invisível) Win: CR+LF (carriage return + line feed) Mac(OS X) e linux: LF (line feed)
O problema do final de linha:
Formato de Sequências
Alguns programas conseguem VER a diferença. MUITOS programas de bioinformática não rodam devido a isso. Demonstração de Correção: TextPad, ou (em ÚLTIMO CASO) word (para arquivos pequenos). Programas específicos.
Para transformar um Arquivo com fim de linha windows (PC) para unix ou vice versa: Escolha Salvar como e especifique o formato e codificação. Windows: PC e ANSI Unix: Unix e UTF-8
Fasta
Formato de Sequências
>SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH >MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY
>gi_5524211_gb_AAD44166_1__cytochrome_b__Elephas_maximus_maximus_
Fasta
Formato de Sequências
>gi|603218|gb|U18238.1|MSU18238 Medicago sativa glucose-6-phosphate dehyd CCACCAGATATAATTAAGTAGATCAGAGTAGAAGAAGATGGGAACAAATGAATGGCATGTAGAAAGAAGA
GATAGCATAGGTACTGAATCTCCTGTAGCAAGAGAGGTACTTGAAACTGGCACACTCTCTATTGTTGTGC
TTGGTGCTTCTGGTGATCTTGCCAAGAAGAAGACTTTTCCTGCACTTTTTCACTTATATAAACAGGAATT
GTTGCCACCTGATGAAGTTCACATTTTTGGCTATGCAAGGTCAAAGATCTCCGATGATGAATTGAGAAAC
AAATTGCGTAGCTATCTTGTTCCAGAGAAAGGTGCTTCTCCTAAACAGTTAGATGATGTATCAAAGTTTT
TACAATTGGTTAAATATGTAAGTGGCCCTTATGATTCTGAAGATGGATTTCGCTTGTTGGATAAAGAGAT
TTCAGAGCATGAATATTTGAAAAATAGTAAAGAGGGTTCATCTCGGAGGCTTTTCTATCTTGCACTTCCT
CCTTCAGTGTATCCATCCGTTTGCAAGATGATCAAAACTTGTTGCATGAATAAATCTGATCTTGGTGGAT
GGACACGCGTTGTTGTTGAGAAACCCTTTGGTAGGGATCTAGAATCTGCAGAAGAACTCAGTACTCAGAT
TGGAGAGTTATTTGAAGAACCACAGATTTATCGTATTGATCACTATTTAGGAAAGGAACTAGTGCAAAAC
ATGTTAGTACTTCGTTTTGCAAATCGGTTCTTCTTGCCTCTGTGGAACCACAACCACATTGACAATGTGC
AGATAGTATTTAGAGAGGATTTTGGAACTGATGGTCGTGGTGGATATTTTGACCAATATGGAATTATCCG
FASTA Definition Line >gi|603218|gb|U18238.1|MSU18238
gi number
Database Identifiers gb GenBank emb EMBL dbj DDBJ sp SWISS-PROT pdb Protein Databank pir PIR prf PRF ref RefSeq
Accession number
Locus Name
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
Fastq Qualidade:
, onde p é a probabilidade de uma base estar errada (linha vermelha)
Formato de Sequências
Probabilidade de 5% = Q13 Quality Probability of error Base call accuracy 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10000 99.99% 50 1 in 100000 99.999%
Genbank
Formato de Sequências
Genbank
Formato de Sequências