Bioinformática - w3.ualg.ptw3.ualg.pt/~jvarela/bioinformatica/T07.pdf · A lista dos 12 melhores...

Preview:

Citation preview

C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , C I Ê N C I A S B I O M É D I C A S E

E N G E N H A R I A B I O L Ó G I C A

Bioinformática

João Varela jvarela@ualg.pt

Aula T7

Temas da Aula T7

  Taxonomia (Annotathon)   Ontologia Génica (GO)   Conclusões (Annotathon)

Taxonomia

  Uma das funções das anotações (meta)genómicas é a definição do táxon da fonte de material genético

Tipos de Classificações

  Classificação hierárquica (de Lineu)   Classificação cladística

Classificação Hierárquica de Sistemas Biológicos

  Domínio   Superreino, Reino, Subreino   Superfilo, Filo (≈ divisão), Subfilo   (Superclasse,) Classe, Subclasse   Superordem, Ordem, Subordem (, Infraordem)   (Superfamília, Epifamília,) Família, Subfamília (, Tribo,

Subtribo, Infratribo)   Género, Subgénero   Espécie, Subespécie   Estirpe (≈ variedade)

Clades

Clades – ramos monofiléticos de uma árvore filogenética

Monofilia, Parafilia e Polifilia

  Grupo monofilético – grupo taxonómico que provém de um ancestral comum cujos descendentes se encontram incluídos neste grupo (≈ grupo holofilético)

  Grupo parafilético – grupo taxonómico que provém de um ascendente comum cujos descendentes se encontram parcialmente incluídos neste grupo

  Grupo polifilético – grupo taxonómico que provém de mais que um ascendente

Monofilia, Parafilia e Polifilia

Clades

NCBI Taxonomy Database

  Cada táxon tem um nº de identificação - NCBI numerical identifier ou Taxonomy ID

Taxonomia: Annotathon

  http://www.ncbi.nlm.nih.gov/Taxonomy/

  Pesquisa por táxon ou identificador numérico

  Colocar o identificador numérico no campo Taxonomy para o táxon menos abrangente ao qual a sequência deverá pertencer com uma elevada probabilidade (analisar valores E do BLAST e o nó imediatamente superior do ramo à qual pertence a sequência em estudo das árvores filogenéticas obtidas)

  Raramente se consegue identificar até à espécie a fonte biológica de sequências metagenómicas

Temas da Aula T7

  Taxonomia (Annotathon)   Ontologia Génica (GO)   Conclusões (Annotathon)

Ontologia Génica (GO)

  Componente celular (biologia celular)

  Função molecular / bioquímica (biologia molecular)

  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos GO em três domínios diferentes:

Componente Celular

  Localização do produto génico dentro e / ou fora da célula

  A localização é uma pista onde a proteína / RNA actua na célula, que por sua vez é uma pista para a sua função

Bioinformática da previsão do tráfico intracelular

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303

Tráfego Biossintético

Tráfego Retentivo

Tráfego Endocítico

Vias de tráfego biossintético, endocítico e retentivo

Retículo Endoplasmático Rugoso

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2205

A via biossintético-secretora inicia-se no RER

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2215

Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2227

Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303

Tráfego Biossintético-Secretor

Existência de um sinal de retenção ou domínios transmembranares numa sequência é indicadora de que a proteína é membranar

Tráfico intracelular para mitocôndrias e cloroplastos

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?highlight=Transport,Proteins,Mitochondria,Chloroplasts&rid=mboc4.section.2176

Proteínas com assinaturas de importação para mitocôndrias deverão ter localização mitocondrial

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2183

Proteínas com assinaturas de importação para cloroplastos deverão ter localização plastidial

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2192

Ferramentas bioinformáticas para prever a localização intracelular de proteínas

 PSORT http://psort.nibb.ac.jp/

 SignalP Web Server http://www.cbs.dtu.dk/services/SignalP/

 TargetDB http://targetdb.pdb.org/

Ontologia Génica

  Componente celular (biologia celular)

  Função molecular / bioquímica (biologia molecular)

  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:

Biologia molecular de um gene

  Função bioquímica / molecular de um gene e respectivo produto (RNA e / ou proteína) (por ex., catálise enzimática)

  Ligação a outras moléculas

Exs: lactase, acetil-CoA carboxilase, ligação a DNA

Ontologia Génica

  Componente celular (biologia celular)

  Função molecular / bioquímica (biologia molecular)

  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:

Processos biológicos

  Metabolismo das purinas   Metabolismo de glícidos   Locomoção   Fototactismo / Fototaxia   Fotossíntese   Respiração   Etc.

Conjunto de eventos moleculares com princípio e fim bem definidos:

Exemplo de termo GO

  Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032

  GO term: heart contraction ; GO:0060047

Utilização de termos GO no Annotathon

  Escolher a função molecular e / ou o processo biológico em que a proteína / RNA participa

  Para realizar esta anotação verificar quais os termos obtidos no BLAST e InterPro

  Caso não existem termos GO nas anotações do GenBank, analisar os valores E de sequências homólogas ou domínios funcionais homólogos e atribuir termos GO à sequência e explicar a vossa decisão em RESULT ANALYSIS

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Critérios de Avaliação: ORFs e Análise de Resultados respectiva

  Codão START existe? Está correcto?   Codão STOP existe? Está correcto?   ORF contém codões STOP internos?   Discute qual o quadro de leitura e cadeia em que ela se

encontra?   Existem ORFs maiores? Se sim, discute porque não escolheu

essa para ser analisada?   Existem ORFs adicionais com significado biológico?   Determinou se a sequência é codificante ou não?   Disse que era não codificante quando o tamanho da sequência

não aponta para isso?   Discute quantas ORFs encontrou nas duas cadeias?   O protocolo está correcto e completo?

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Critérios de Avaliação: Massa Molecular

  Não calculou a massa molecular da proteína quando a proteína está claramente completa?

  Calculou a massa molecular da proteína quando a proteína está claramente incompleta?

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Domínios Proteicos e Análise de Resultados

  Discute a lista de domínios presente em RAW results e respectivas funções?

  Discute os valores E respectivos?   Discute quais os domínios correctos e os domínios

redundantes (sobrepostos)?   Discute a função da proteína à luz dos domínios

encontrados?   Os domínios estão correctamente apresentados no

esquema gráfico?   Colocou os resultados todos em RAW RESULTS?

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

BLAST: Análise de Resultados

  A lista de resultados (hits) está completa?   A lista dos 12 melhores alinhamentos está completa? Tem

sequências a mais?   Analisa os valores E, o nº de hits e a localização das homologias nos

alinhamentos?   Analisa a função possível da proteína?   Analisa se a proteína tem proteínas homólogas conhecidas?   O protocolo está correcto?   Desistiu logo com resultados do BLASTp sem ter tentado análises

alternativas (por ex., BLASTx)?   Discute os resultados do Lineage Report?   Discute a escolha dos ingroups e outgroups?   Discute a escolha das sequências para fazer os alinhamentos

múltiplos?   Escolheu o nº máximo de hits correcto?

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

MSA: Análise de Resultados

  Determinou o início da ORF olhando para os resultados do MSA?

  Discutiu se as sequências no MSA têm o mesmo tamanho?

  Os resultados do MSA batem certo com os resultados dos domínios? Isso é discutido?

  O alinhamento MSA está correcto e bem apresentado (contém nomes fáceis de identificar, por ex.)?

  O alinhamento MSA contém sequências repetidas?   Adicionou a ORF desconhecida ao MSA? (erro

frequente!)

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Filogenia e Taxonomia: Análise de Resultados

  O protocolo está correcto?   Apresentação da árvore está correcta? Colocaram os

nomes dos taxa (género, classe, por ex.) nas folhas da árvore?

  Discutiu a topologia das árvores?   Realizou a construção de árvores com os 2 métodos

(NJ e ML)?   Discutiu se as árvores são concordantes?   Seleccionou qual o grupo taxonómico mais provável?

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Ontologia Génica

  Escolheu o processo biológico correcto?   Escolheu a função molecular correcta?

Annotathon: Análise de Resultados Critérios de Avaliação

  ORFs   Massa Molecular   Domínios   BLAST e Lineage Report   MSA   Filogenia e Taxonomia   Ontologia   Conclusões

Conclusões

  Discutir argumentos a favor / contra a hipótese da sequência ser codificante ou não (usar números)

  Discutir a sua função bioquímica e a sua participação num dado processo biológico

  Discutir a classificação taxonómica

O que se deve EVITAR nas Conclusões

  A descrição em que botões se clicou   A descrição do método utilizado   Escrever conclusões mal estruturadas (escrita telegráfica)   Pôr “palha” na esperança de obter melhor nota   Fazer plágio, copiando e colando descrições de funções

de páginas da Internet (implica anulação da anotação!)   Não relacionar conclusões dos vários campos da

anotação (por ex. Não relacionar os resultados do MSA com os resultados do InterPro)

  Pôr hipóteses sem as fundamentar (referências bibliográficas e / ou números)