Upload
nibaw
View
35
Download
1
Embed Size (px)
DESCRIPTION
Formato de Arquivos e Bancos de Dados Biológicos. Gislaine S. P. Pereira [email protected]. DBs - NCBI. NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular Bancos de Dados públicos; - PowerPoint PPT Presentation
Citation preview
Formato de Arquivos e Formato de Arquivos e Bancos de Dados BiológicosBancos de Dados Biológicos
Gislaine S. P. [email protected]
DBs - NCBI DBs - NCBI
NCBI (National Center for Biotechnology Information)
1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular
– Bancos de Dados públicos;
– Pesquisas na área da biologia computacional;
– Desenvolvimento de ferramentas para análise de dados genômicos;
– Informações biomédicas.
http://www.ncbi.nlm.nih.gov/
NCBINCBI
EntrezEntrez
Sistema de busca robusto que realiza
a procura simultânea em múltiplos bancos.
EntrezEntrez
Mapa do relacionamento entre os diferentes bancos de dados.Mapa
Entrez BuscaEntrez Busca
Formato GenPeptFormato GenPept
GB: gene bank - accession number
identifica a seqüência
e sua versão
GI : gene Info Identifier
identificador único
para cada seqüência
Formato GenPeptFormato GenPept
O número do taxon é importante para pesquisas nos dbs.
Formato GenPeptFormato GenPept
Formato GenPeptFormato GenPept
Formato FastaFormato Fasta
>
identificação
Formato ASNFormato ASN
Notação usada para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.
Acesso aos DadosAcesso aos Dados
SOAP (Simple Object Access Protocol)
Protocolo para troca de informações.EInfo – retorna última atualização e links disponíveis para
cada db.
ESearch – busca e retorna IDs (uso no EFetch, Elink e Esummary).
EPost – retorna arquivo com de IDs (buscas subseqüentes).
ESummary – retorna o resumo de documentos buscando por IDs.
Acesso aos DadosAcesso aos Dados
SOAP
EFetch – retorna registros de uma lista de IDs no formato solicitado.
ELink – verifica links para artigos externos ou do db buscando por IDs.
Retorna os IDs dos artigos.
EGQuery – Fornece contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query).
ESpell – Retorna sugestões de ortografia.
Acesso aos DadosAcesso aos Dados
FTP (File Transfer Protocol)
GenBank – anotações de seqüências de DNA.
Gene – Informações sobre genes (organismos completamente seqüenciados).
RefSeq – conjunto não-redundante de seqüências de DNA, proteínas e transcritos.
Cn3D – Programa de visualização de estruturas 3D.
BLAST – alinhamento local em bases de dados.
ftp://ftp.ncbi.nih.gov/
DBs - EMBLDBs - EMBL
EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute)
Cambridge (Inglaterra);
Pioneiro no desenvolvimento de pesquisas em bioinformática;
Desenvolve banco de dados biológicos e programas
http://www.ebi.ac.uk/
EMBL-EBIEMBL-EBI
BD de seqüências de nucleotídeos do EMBL
- Catálogo mais completo de informações sobre proteínas.
- Repositório central de seqüências e
funções de proteínas (informações
UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e
PIR).
EMBL-EBIEMBL-EBI
Repositório público para dados de transcriptoma e relacionados.
-> armazena dados MIAME (Minimum Information About a Microarray Experiment). -> armazena padrões de expressão indexados por gene e as suas respectivas biomedidas.
Ensembl Genome Browser
Projeto em conjunto com o Instituto Sanger
Matém anotação automática de genomas de
eucariotos.
Ensembl anota genes conhecidos e novos
com a anotação de sua função fornecida por
InterPro, OMIM, SAGE e famílias gênicas.
O acesso aos dados e ao software são
livres e sem restrição.
EMBL-EBIEMBL-EBI
BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.
Macromolecular Structure Database Group
Projeto europeu para a coleta,
gerenciamento e destribuição de dados
sobre estruturas macromoleculares
derivadas em parte do PDB (World Wide
Protein Data Bank).
Bancos de DadosBancos de Dados
BuscaBusca
BuscaBusca
BuscaBusca
Formato EmblFormato Embl
ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições BP RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco
Formato EmblFormato Embl
FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final
Continuação do arquivo
Formato Swiss-ProtFormato Swiss-Prot
ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato Swiss-ProtFormato Swiss-Prot
ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final
Formato PIRFormato PIR
> Sinal de maiorDuas letras descrevendo o tipo
Protein (complete) P1Protein (fragment) F1DNA (linear) DLDNA (circular) DCRNA (linear) RLRNA (circular) RCtRNA N3other functional RNA N1
; ponto e vírgula
Código de identificação
Uma linha contendo a descrição
Seqüência contendo 1 ou + linhas
* Sinal de término
Acesso aos DadosAcesso aos Dados
SOAP
WSDbfetch – Retorna entradas de vários dbs biológicos atualizados
WSEB-Eye – Acesso ao mecanismo de busca EB-Eye
WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares
WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest)
WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes )
Outros serviços…
http://www.ebi.ac.uk/Tools/webservices/
Acesso aos DadosAcesso aos Dados
FTPArrayExpress – Dados de microarray
Embl – BD de nucleotídeos do EMBL
InterPro – Famílias, domínios de proteínas
UniProt – BD universal de proteínas
UniRef – BD referência de grupos de proteínas
http://www.ebi.ac.uk/FTP/
ComparaçãoComparação
NCBI
BDs
Nucleotídeos
Busca
- Seleciona itens de interesse
- Padrão entre os BDs
- Maior consistência
Acesso aos dados
- SOAP, FTP
Específico para acesso de dados
Forte: Pesquisas de publicações
EBI
BDs
Proteínas
Busca
- Faz sub-buscas
- Padrões diferentes
- Maior quantidade de informações
Acesso aos dados
- SOAP, FTP
Usado para dados e ferramentas
Forte: Obtenção de seqüências novas
Site com os formatos EBISite com os formatos EBI
http://www.ebi.ac.uk/help/formats_frame.html
Exemplo busca de dadosExemplo busca de dados
Busca rápida de dados em formato texto no NCBI usando o clipboard
Exemplo busca de dadosExemplo busca de dados
Busca rápida de dados em formato texto no NCBI usando FASTA
Embl
Genbank
Fasta
Bancos - KEEGBancos - KEEG
KEEG (Kyoto Encyclopedia of Genes and Genomes)
Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and Human Genome Center of University of Tokyo
– DB fonte de dados de bioinformática;
http://www.genome.jp/kegg/
KEEGKEEG
KEEGKEEG
Search NAT2
KEEGKEEG
DBs - GODBs - GO
Projeto:Gene Ontology (GO - 1998) colaboração de
produtos gênicos de diferentes dbs e iniciou com a colaboração de 3 organismos modelos:
FlyBase (Drosophila),Saccharomyces Genome Database (SGD)Mouse Genome Database (MGD)
Componente celulare, Processo biológico, Função molecular
http://www.geneontology.org/
GOGO
Componente celular
O componente da célula com a restrição de ser parte de uma estrutura maior.
Processo biológico
Série de eventos realizados.
Função molecular
Descreve atividade, função molecular.
http://www.geneontology.org/
Componentes celulares
O componente de uma célula com a restrição de ser parte de uma estrutura maior.
Processos biológicos
Série de eventos realizados por uma ou mais configurações de processos biológicos.
Funções moleculares
Descreve atividades à nível molecular.
http://www.geneontology.org/
GOGO
GOGO
The GO ConsortiumÉ um conjunto de dbs de organismos modelo de proteína e a comunidade biológica está ativamente envolvida no desenvolvimento e aplicação dos dados de GO.
ConclusãoConclusão