48
CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA Bioinformática João Varela [email protected] Aula T7

Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Embed Size (px)

Citation preview

Page 1: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , C I Ê N C I A S B I O M É D I C A S E

E N G E N H A R I A B I O L Ó G I C A

Bioinformática

João Varela [email protected]

Aula T7

Page 2: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Temas da Aula T7

  Taxonomia (Annotathon)   Ontologia Génica (GO)   Conclusões (Annotathon)

Page 3: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Taxonomia

  Uma das funções das anotações (meta)genómicas é a definição do táxon da fonte de material genético

Page 4: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Tipos de Classificações

  Classificação hierárquica (de Lineu)   Classificação cladística

Page 5: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Classificação Hierárquica de Sistemas Biológicos

  Domínio   Superreino, Reino, Subreino   Superfilo, Filo (≈ divisão), Subfilo   (Superclasse,) Classe, Subclasse   Superordem, Ordem, Subordem (, Infraordem)   (Superfamília, Epifamília,) Família, Subfamília (, Tribo,

Subtribo, Infratribo)   Género, Subgénero   Espécie, Subespécie   Estirpe (≈ variedade)

Page 6: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Clades

Clades – ramos monofiléticos de uma árvore filogenética

Page 7: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Monofilia, Parafilia e Polifilia

  Grupo monofilético – grupo taxonómico que provém de um ancestral comum cujos descendentes se encontram incluídos neste grupo (≈ grupo holofilético)

  Grupo parafilético – grupo taxonómico que provém de um ascendente comum cujos descendentes se encontram parcialmente incluídos neste grupo

  Grupo polifilético – grupo taxonómico que provém de mais que um ascendente

Page 8: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Monofilia, Parafilia e Polifilia

Page 9: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Clades

Page 10: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

NCBI Taxonomy Database

  Cada táxon tem um nº de identificação - NCBI numerical identifier ou Taxonomy ID

Page 11: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Taxonomia: Annotathon

  http://www.ncbi.nlm.nih.gov/Taxonomy/

  Pesquisa por táxon ou identificador numérico

  Colocar o identificador numérico no campo Taxonomy para o táxon menos abrangente ao qual a sequência deverá pertencer com uma elevada probabilidade (analisar valores E do BLAST e o nó imediatamente superior do ramo à qual pertence a sequência em estudo das árvores filogenéticas obtidas)

  Raramente se consegue identificar até à espécie a fonte biológica de sequências metagenómicas

Page 12: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Temas da Aula T7

  Taxonomia (Annotathon)   Ontologia Génica (GO)   Conclusões (Annotathon)

Page 13: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Ontologia Génica (GO)

  Componente celular (biologia celular)

  Função molecular / bioquímica (biologia molecular)

  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos GO em três domínios diferentes:

Page 14: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Componente Celular

  Localização do produto génico dentro e / ou fora da célula

  A localização é uma pista onde a proteína / RNA actua na célula, que por sua vez é uma pista para a sua função

Page 15: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Bioinformática da previsão do tráfico intracelular

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303

Tráfego Biossintético

Tráfego Retentivo

Tráfego Endocítico

Page 16: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Vias de tráfego biossintético, endocítico e retentivo

Page 17: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Retículo Endoplasmático Rugoso

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2205

Page 18: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

A via biossintético-secretora inicia-se no RER

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2215

Page 19: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2227

Page 20: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303

Tráfego Biossintético-Secretor

Page 21: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Existência de um sinal de retenção ou domínios transmembranares numa sequência é indicadora de que a proteína é membranar

Page 22: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Tráfico intracelular para mitocôndrias e cloroplastos

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?highlight=Transport,Proteins,Mitochondria,Chloroplasts&rid=mboc4.section.2176

Page 23: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Proteínas com assinaturas de importação para mitocôndrias deverão ter localização mitocondrial

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2183

Page 24: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Proteínas com assinaturas de importação para cloroplastos deverão ter localização plastidial

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2192

Page 25: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Ferramentas bioinformáticas para prever a localização intracelular de proteínas

 PSORT http://psort.nibb.ac.jp/

 SignalP Web Server http://www.cbs.dtu.dk/services/SignalP/

 TargetDB http://targetdb.pdb.org/

Page 26: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Ontologia Génica

  Componente celular (biologia celular)

  Função molecular / bioquímica (biologia molecular)

  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:

Page 27: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Biologia molecular de um gene

  Função bioquímica / molecular de um gene e respectivo produto (RNA e / ou proteína) (por ex., catálise enzimática)

  Ligação a outras moléculas

Exs: lactase, acetil-CoA carboxilase, ligação a DNA

Page 28: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Ontologia Génica

  Componente celular (biologia celular)

  Função molecular / bioquímica (biologia molecular)

  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:

Page 29: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Processos biológicos

  Metabolismo das purinas   Metabolismo de glícidos   Locomoção   Fototactismo / Fototaxia   Fotossíntese   Respiração   Etc.

Conjunto de eventos moleculares com princípio e fim bem definidos:

Page 30: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Exemplo de termo GO

  Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032

  GO term: heart contraction ; GO:0060047

Page 31: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Utilização de termos GO no Annotathon

  Escolher a função molecular e / ou o processo biológico em que a proteína / RNA participa

  Para realizar esta anotação verificar quais os termos obtidos no BLAST e InterPro

  Caso não existem termos GO nas anotações do GenBank, analisar os valores E de sequências homólogas ou domínios funcionais homólogos e atribuir termos GO à sequência e explicar a vossa decisão em RESULT ANALYSIS

Page 32: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 33: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Critérios de Avaliação: ORFs e Análise de Resultados respectiva

  Codão START existe? Está correcto?   Codão STOP existe? Está correcto?   ORF contém codões STOP internos?   Discute qual o quadro de leitura e cadeia em que ela se

encontra?   Existem ORFs maiores? Se sim, discute porque não escolheu

essa para ser analisada?   Existem ORFs adicionais com significado biológico?   Determinou se a sequência é codificante ou não?   Disse que era não codificante quando o tamanho da sequência

não aponta para isso?   Discute quantas ORFs encontrou nas duas cadeias?   O protocolo está correcto e completo?

Page 34: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 35: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Critérios de Avaliação: Massa Molecular

  Não calculou a massa molecular da proteína quando a proteína está claramente completa?

  Calculou a massa molecular da proteína quando a proteína está claramente incompleta?

Page 36: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 37: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Domínios Proteicos e Análise de Resultados

  Discute a lista de domínios presente em RAW results e respectivas funções?

  Discute os valores E respectivos?   Discute quais os domínios correctos e os domínios

redundantes (sobrepostos)?   Discute a função da proteína à luz dos domínios

encontrados?   Os domínios estão correctamente apresentados no

esquema gráfico?   Colocou os resultados todos em RAW RESULTS?

Page 38: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 39: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

BLAST: Análise de Resultados

  A lista de resultados (hits) está completa?   A lista dos 12 melhores alinhamentos está completa? Tem

sequências a mais?   Analisa os valores E, o nº de hits e a localização das homologias nos

alinhamentos?   Analisa a função possível da proteína?   Analisa se a proteína tem proteínas homólogas conhecidas?   O protocolo está correcto?   Desistiu logo com resultados do BLASTp sem ter tentado análises

alternativas (por ex., BLASTx)?   Discute os resultados do Lineage Report?   Discute a escolha dos ingroups e outgroups?   Discute a escolha das sequências para fazer os alinhamentos

múltiplos?   Escolheu o nº máximo de hits correcto?

Page 40: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 41: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

MSA: Análise de Resultados

  Determinou o início da ORF olhando para os resultados do MSA?

  Discutiu se as sequências no MSA têm o mesmo tamanho?

  Os resultados do MSA batem certo com os resultados dos domínios? Isso é discutido?

  O alinhamento MSA está correcto e bem apresentado (contém nomes fáceis de identificar, por ex.)?

  O alinhamento MSA contém sequências repetidas?   Adicionou a ORF desconhecida ao MSA? (erro

frequente!)

Page 42: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 43: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Filogenia e Taxonomia: Análise de Resultados

  O protocolo está correcto?   Apresentação da árvore está correcta? Colocaram os

nomes dos taxa (género, classe, por ex.) nas folhas da árvore?

  Discutiu a topologia das árvores?   Realizou a construção de árvores com os 2 métodos

(NJ e ML)?   Discutiu se as árvores são concordantes?   Seleccionou qual o grupo taxonómico mais provável?

Page 44: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 45: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Ontologia Génica

  Escolheu o processo biológico correcto?   Escolheu a função molecular correcta?

Page 46: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Page 47: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

Conclusões

  Discutir argumentos a favor / contra a hipótese da sequência ser codificante ou não (usar números)

  Discutir a sua função bioquímica e a sua participação num dado processo biológico

  Discutir a classificação taxonómica

Page 48: Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores alinhamentos está completa? Tem sequências a mais? Analisa os valores E, o nº

O que se deve EVITAR nas Conclusões

  A descrição em que botões se clicou   A descrição do método utilizado   Escrever conclusões mal estruturadas (escrita telegráfica)   Pôr “palha” na esperança de obter melhor nota   Fazer plágio, copiando e colando descrições de funções

de páginas da Internet (implica anulação da anotação!)   Não relacionar conclusões dos vários campos da

anotação (por ex. Não relacionar os resultados do MSA com os resultados do InterPro)

  Pôr hipóteses sem as fundamentar (referências bibliográficas e / ou números)