112
NCB I Lushan Wang Lushan Wang 2008.10.29 2008.10.29 Bioinformatics database and retrieval strategy

Lushan Wang 2008.10.29

Embed Size (px)

DESCRIPTION

Bioinformatics database and retrieval strategy. Lushan Wang 2008.10.29. Content. 重要生物信息数据库 生物信息数据及其格式 数据库检索工具 Entrez. 1 、重要生物信息中心 Bioinformatics Centres. NCBI National Center for Biotechnology Information (US) www.ncbi.nlm.nih.gov EBI European Bioinformatics Institute (EU) - PowerPoint PPT Presentation

Citation preview

Page 1: Lushan Wang 2008.10.29

NC

BI

Lushan WangLushan Wang

2008.10.292008.10.29

Bioinformatics database and retrieval strategy

Page 2: Lushan Wang 2008.10.29

NC

BI

1. 重要生物信息数据库

2. 生物信息数据及其格式

3. 数据库检索工具 Entrez

Content

Page 3: Lushan Wang 2008.10.29

NC

BI

Page 4: Lushan Wang 2008.10.29

NC

BI

Page 5: Lushan Wang 2008.10.29

NC

BI

1 、重要生物信息中心 Bioinformatics Centres1 、重要生物信息中心 Bioinformatics Centres

NCBI NCBI National Center for Biotechnology Information National Center for Biotechnology Information (US)(US) www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov

EBIEBI European Bioinformatics Institute European Bioinformatics Institute (EU)(EU)

www.ebi.ac.ukwww.ebi.ac.uk

DDBJ DNA Data Bank of Japan DDBJ DNA Data Bank of Japan (JP)(JP)

www.ddbj.nig.ac.jpwww.ddbj.nig.ac.jp

ExPASyExPASy Expert of Protein Analysis System ( Expert of Protein Analysis System (SwitzerlandSwitzerland ) )

www.expasy.chwww.expasy.ch

PDB Protein Data Bank (US)PDB Protein Data Bank (US)

www.rcsb.org/pdb/ www.rcsb.org/pdb/

CBIPKU CBIPKU 北京大学生物信息中心 北京大学生物信息中心 (( CNCN ))

www.cbi.pku.edu.cn/chinese/www.cbi.pku.edu.cn/chinese/

BioSino BioSino 中国生物信息中心 中国生物信息中心 (CN )(CN )

www.biosino.orgwww.biosino.org

Page 6: Lushan Wang 2008.10.29

NC

BI

Page 7: Lushan Wang 2008.10.29

NC

BI

Page 8: Lushan Wang 2008.10.29

NC

BI

Page 9: Lushan Wang 2008.10.29

NC

BI

Page 10: Lushan Wang 2008.10.29

NC

BI

Page 11: Lushan Wang 2008.10.29

NC

BI

Tools for Bioinformatics ResearchTools for Bioinformatics Research

EntrezEntrez SRSSRS

Page 12: Lushan Wang 2008.10.29

NC

BI

数据库的集成与检索界面的统一数据库的集成与检索界面的统一

XML XML

Site A Site B

Data Integration

Page 13: Lushan Wang 2008.10.29

NC

BI

Page 14: Lushan Wang 2008.10.29

NC

BI

SRSSRS

((SSequence equence RRetrieval etrieval SSystemystem ) )

SRSSRS 是欧洲分子生物学网是欧洲分子生物学网 EMBnetEMBnet 的主要检索工具的主要检索工具

SRS, Sequence Retrieval System, is a powerful database

management system developed specifically for biological

databases. The goal of SRS is to provide an efficient access to

databases with biological contents no matter in what format are

they available and allowing for complex search criteria.

Page 15: Lushan Wang 2008.10.29

NC

BI

数据库记录的格式与检索路口

Page 16: Lushan Wang 2008.10.29

NC

BI

核酸 / 蛋白质数据库记录的组成核酸 / 蛋白质数据库记录的组成

由于历史原因,各种生物数据库采用了由于历史原因,各种生物数据库采用了不同的信息格式不同的信息格式,许多,许多

生物计算机软件也要求生物计算机软件也要求特定的核酸和蛋白质序列输入格式特定的核酸和蛋白质序列输入格式。。

一个数据库记录一个数据库记录 (entry)(entry) 一般由两部分组成:一般由两部分组成:原始序列数据原始序列数据和描和描

述这些数据述这些数据生物学信息的注释生物学信息的注释 (annotation)(annotation) 。注释中包含的信。注释中包含的信

息与相应的序列数据同样重要和有应用价值,值得注意。息与相应的序列数据同样重要和有应用价值,值得注意。

序列部分和注释部分两者都有固定格式,以便计算机读取。各序列部分和注释部分两者都有固定格式,以便计算机读取。各

个 数 据 库 的 具 体 格 式 又 有 所 不 同 , 大 致 分 成个 数 据 库 的 具 体 格 式 又 有 所 不 同 , 大 致 分 成 GenBankGenBank 和和

EMBLEMBL 两种风格。两种风格。

Page 17: Lushan Wang 2008.10.29

NC

BI

GenBank RecordsGenBank Records

Header

Feature Table

Sequence

The Flatfile Format

Page 18: Lushan Wang 2008.10.29

NC

BI

GenBank 格式GenBank 格式

GenBankGenBank 格式:格式:每个条目都是一份每个条目都是一份纯文本文件纯文本文件。每行左端为空格或为识别字,。每行左端为空格或为识别字,识别字均为识别字均为完整英文字完整英文字,不用缩写。,不用缩写。

格式可以分成格式可以分成 33 个部分:个部分:

11 ))头部包含关于整个序列的信息(描述字符),从 头部包含关于整个序列的信息(描述字符),从 LOCUSLOCUS 行行到到 ORIGINORIGIN 行行;;

22 )注释这一序列的特性()注释这一序列的特性( Feature TableFeature Table ),为注释核心部分;),为注释核心部分;

33 )序列本身)序列本身 (Sequence)(Sequence) 。。注:所有的核苷酸数据库记录(注:所有的核苷酸数据库记录( EMBL/GenBank/DDBJ)EMBL/GenBank/DDBJ) 都在都在最后一行以最后一行以 //// 结尾。结尾。

Page 19: Lushan Wang 2008.10.29

NC

BI

GenBank 格式

Page 20: Lushan Wang 2008.10.29

NC

BI

EMBL 格式EMBL 格式

EMBLEMBL 格式:格式:

欧洲分子生物学欧洲分子生物学 EMBLEMBL 数据库的每个条目是一份数据库的每个条目是一份纯文本文件纯文本文件

,每一行最前面是由,每一行最前面是由两个大写字母组成两个大写字母组成的识别标志,常见的的识别标志,常见的

识别标志列举在后面的表中。识别标志“特性表”识别标志列举在后面的表中。识别标志“特性表” FTFT 包含一包含一

批关键字,它们的定义已经与批关键字,它们的定义已经与 GenBankGenBank 和和 DDBJDDBJ 统一。下欧统一。下欧

洲国家的许多数据库如洲国家的许多数据库如 SWISS-SWISS-

PROTPROT 、、 ENZYMEENZYME 、、 TRANSFACTRANSFAC 等,都采用与等,都采用与 EMBLEMBL 一致一致

的格式。的格式。

Page 21: Lushan Wang 2008.10.29

NC

BI

EMBL 格式

Page 22: Lushan Wang 2008.10.29

NC

BI

数据库记录注释代码和内容说明 数据库记录注释代码和内容说明 EMBLEMBL 识别标志识别标志 GenBankGenBank 识别字识别字 意义意义

ID ID LOCUS LOCUS 序列名称序列名称

DEDE DEFINITIONDEFINITION 序列简单说明序列简单说明

AC AC ACCESSION ACCESSION 唯一的提取号唯一的提取号

OSOS SOURCESOURCE 序列来源的物种名序列来源的物种名

OC OC ORGANISM ORGANISM 序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置

DT DT 建立日期建立日期

KW KW KEYWORDSKEYWORDS 与序列相关的关键词与序列相关的关键词

RNRN REFERENCEREFERENCE 相关文献编号,或递交序列的注册信息相关文献编号,或递交序列的注册信息

RARA AUTHORSAUTHORS 相关文献作者,或递交序列的作者相关文献作者,或递交序列的作者

RTRT TITLETITLE 相关文献题目相关文献题目

RLRL JOURNALJOURNAL 引文出处引文出处相关文献刊物杂志名,或递交序列的作者单位相关文献刊物杂志名,或递交序列的作者单位

RXRX MEDLINE MEDLINE 相关文献相关文献 MedlineMedline 引文代码引文代码

RPRP 相关文献其它注释相关文献其它注释

p18

Page 23: Lushan Wang 2008.10.29

NC

BI

数据库记录注释代码和内容说明( cont. )数据库记录注释代码和内容说明( cont. )EMBLEMBL 识别标志识别标志 GenBankGenBank 识别字识别字 意义意义

RCRC REMARKREMARK 相关文献注释相关文献注释

DRDR 相关数据库交叉引用号相关数据库交叉引用号

XXXX 为阅读清晰而加的空行为阅读清晰而加的空行

CC CC COMMENT COMMENT 评注评注

NI NI VERSION VERSION 可更新的序列版本号可更新的序列版本号

FH FH FEATURES FEATURES 序列特征表起始序列特征表起始

FT FT FEATURES FEATURES 特性表特性表

SQ SQ EMBLEMBL 序列开始标志,后随长度、字母数序列开始标志,后随长度、字母数

BASE COUNT BASE COUNT GenBankGenBank 碱基数目碱基数目

ORIGIN ORIGIN GenBankGenBank 序列开始标志,该行空序列开始标志,该行空

// // // // 序列结束标志,空行序列结束标志,空行

p18

Page 24: Lushan Wang 2008.10.29

NC

BI

LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000

序列和数据库标识序列和数据库标识

位置位置 , , 提取号提取号 , , 版本 版本 Definition accession versionDefinition accession version

DEFINITION Limulus polyphemus myosin III mRNA, complete cds.

GB DivisionLocus 名字

简单描述 ( 标题 )

修改日期序列类型mRNA (= cDNA)rRNAsnRNADNA

序列长度

VERSION AF062069.2 GI:7144484

ACCESSION AF062069

提取号

Accession.version gi number最古老的甲壳动物——鲎( hòu )肌球蛋白 III

Page 25: Lushan Wang 2008.10.29

NC

BI

关键字,生物体来源 Keywords and source关键字,生物体来源 Keywords and source

KEYWORDS .SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata;     Merostomata; Xiphosura; Limulidae; Limulus.

序列来源的物种名

序列来源的物种学名和分类学位置

可更新的序列版本号

后生动物

Page 26: Lushan Wang 2008.10.29

NC

BI

REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In pressREFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

引用(参考文献) Reference引用(参考文献) Reference

以前版本号

相关文献编号,或递交序列的注册信息

相关文献作者,或递交序列的作者

相关文献题目

引文出处相关文献刊物杂志名,或递交序列的作者单位

评注

Page 27: Lushan Wang 2008.10.29

NC

BI

FEATURES Location/Qualifiers source 1..3808 /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC16332.2" /db_xref="GI:7144485" /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL"

特性表 (Features)特性表 (Features)

编码序列

Biosource

阅读框

GenPept Protein Identifiers

Page 28: Lushan Wang 2008.10.29

NC

BI

BASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt <sequence omitted> 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa

//

SequenceSequence

记录结束标记

指示序列数据的起始GenBank 碱基数目

Page 29: Lushan Wang 2008.10.29

NC

BI

PDB 数据库文件格式PDB 数据库文件格式分子类别

-- 水解酶类(氧连接糖

基化)

该文件的公布日期

该结构的pdb 代码

该化合物名称人类唾液淀粉

该化合物的来源

结构测定者名字

REMARK 是此 pdb 文件的参考书目、最大分辨率、注

解等

Page 30: Lushan Wang 2008.10.29

NC

BI

REMARK 的部分讲解REMARK 的部分讲解

图中图中 11 处指出蛋白质原子数为处指出蛋白质原子数为 39463946 ,, 22 处指出核酸原子数为处指出核酸原子数为00 ,, 33 处指出异型原子数为处指出异型原子数为 22 ,, 44 处指出溶剂原子数为处指出溶剂原子数为 169 169

指出蛋白质原子数

核酸原子数

异型原子数溶剂原子数

Page 31: Lushan Wang 2008.10.29

NC

BI

SEQRES 部分 SEQRES 部分

EQRESEQRES 部分表示了该分子包含部分表示了该分子包含 496496 个氨基酸残基,并将每个残基个氨基酸残基,并将每个残基符号依次列出:符号依次列出:

Page 32: Lushan Wang 2008.10.29

NC

BI

HELIX 部分HELIX 部分

下面下面 HELIXHELIX 部分显示的是分子中部分显示的是分子中 αα 螺旋的组成和信息,如图螺旋的组成和信息,如图::

Page 33: Lushan Wang 2008.10.29

NC

BI

β 折叠β 折叠

然后下面就是然后下面就是 ββ 折叠的组成和信息了,如下图:折叠的组成和信息了,如下图:

Page 34: Lushan Wang 2008.10.29

NC

BI

分子的原子信息分子的原子信息 下面就是该分子的原子信息,我们先给出下面就是该分子的原子信息,我们先给出 FormatFormat 列的格式列列的格式列

表,然后进行一下详细的说明,如下图:表,然后进行一下详细的说明,如下图:列号 列号 目录 目录 fmt fmt

1-6 1-6 ATOMATOM 或或 HETATM HETATM All All

7-11 7-11 原子序列号(可以有空格) 原子序列号(可以有空格) All All

13-16 13-16 按按 IUPACIUPAC 标准格式的原子名称标准格式的原子名称 All All

17 17 构象标识符,用构象标识符,用 A,B,CA,B,C 表示表示 All All

18-2018-20 按按 IUPACIUPAC 标准格式的残基名称 标准格式的残基名称 All All

23-2623-26 残基序列号 残基序列号 All All

2727 插入残基的编码(如:插入残基的编码(如: 66A&66B) 66A&66B) All All

31-3831-38 XX 坐标轴 坐标轴 All All

39-4639-46 YY 坐标轴 坐标轴 All All

47-54 47-54 ZZ 坐标轴 坐标轴 All All

55-60 55-60 位置 位置 All All

61-66 61-66 温度因子 温度因子 All All

68-70 68-70 脚注编号 脚注编号 9292

73-76 73-76 片段指示符(左对齐) 片段指示符(左对齐) 9696

77-78 77-78 元素符号(右对齐) 元素符号(右对齐) 9696

79-80 79-80 原子带的电荷 原子带的电荷 9696

p21

Page 35: Lushan Wang 2008.10.29

NC

BI

分子的原子信息详解分子的原子信息详解

表示所指为原子

该原子序列号

IUPAC 标准

格式的原子名称

残基名称

残基序列号

原子

的 X坐标轴

Y坐标轴

Z坐标轴

位置

温度因子

片段指示符

Page 36: Lushan Wang 2008.10.29

NC

BI

TER 、 HETATM 、 CONECT 、 ENDTER 、 HETATM 、 CONECT 、 END

TERTER 记录,它记录主链分子中的链末端,在记录,它记录主链分子中的链末端,在 TERTER 后面的后面的HETATMHETATM 就是记录异型原子的信息。就是记录异型原子的信息。

在在 HETATMHETATM 记录的后面还有一些记录的后面还有一些 CONECTCONECT 记录。记录。 CONECTCONECT

详细的描述了已给出坐标的原子间的连通性。而这种连通性是详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。以该记录的原子序列号的形式表现的。 CONECTCONECT 记录是用来记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。被详细列出的键。

最后,在整个文件的结尾还有一个最后,在整个文件的结尾还有一个 ENDEND 记录表示文件结束。记录表示文件结束。

Page 37: Lushan Wang 2008.10.29

NC

BI

快速准确的检索策略快速准确的检索策略

semanticmapping

semanticmapping

AttributesRelations

查询 语义映射和处理过程 结果

语义匹配

Page 38: Lushan Wang 2008.10.29

NC

BI

Knowledge Discovery in Databases

Data Warehouse

Prepareddata

Data

CleaningIntegration

SelectionTransformation

DataMining

Patterns

EvaluationVisualization

KnowledgeKnowledge

Base

Page 39: Lushan Wang 2008.10.29

NC

BI

The National Center for Biotechnology Information (NCBI)

The National Center for Biotechnology Information (NCBI)

Created Created as a part of the National Library of Medicine in as a part of the National Library of Medicine in

19881988

ToolsTools: : EntrezEntrez (1992) (1992) ,, BLASTBLAST(1990), (1990),

GenBank GenBank (1992)(1992)

Free Free MEDLINEMEDLINE (PubMed, 1997) (PubMed, 1997)

Other databasesOther databases: dbEST, dbGSS, dbSTS, MMDB, OMIM, : dbEST, dbGSS, dbSTS, MMDB, OMIM,

UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink,

RefSeqRefSeq

Page 40: Lushan Wang 2008.10.29

NC

BI

The National Institutes of HealthThe National Institutes of Health

Bethesda, MD

Page 41: Lushan Wang 2008.10.29

NC

BI

The National Center for Biotechnology InformationThe National Center for

Biotechnology Information

Accepts submissions of primary dataAccepts submissions of primary data

Develops tools to analyze these dataDevelops tools to analyze these data

Creates derivative databases based on the primary dataCreates derivative databases based on the primary data

Provides free search, link, and retrieval of these data, primarily through the Provides free search, link, and retrieval of these data, primarily through the

Entrez systemEntrez system

Page 42: Lushan Wang 2008.10.29

NC

BI

NCBI WWW Users per DayNCBI WWW Users per Day

Page 43: Lushan Wang 2008.10.29

NC

BI

Number of Users and Hits Per DayNumber of Users and Hits Per Day

0

50,000

100,000

150,000

200,000

250,000

300,000

350,000

400,000

450,000

Nu

mb

er

of

Us

ers

1997 1998 1999 2000 2001 2002 2003

Christmas & New Year

Page 44: Lushan Wang 2008.10.29

NC

BI

Homepage - accessing the dataHomepage - accessing the dataall[filter]

p53

Page 45: Lushan Wang 2008.10.29

NC

BI

all[filter]

1/11/2005

29/10/2008

Page 46: Lushan Wang 2008.10.29

NC

BI

Page 47: Lushan Wang 2008.10.29

NC

BI

Molecular DatabasesMolecular Databases

Primary DatabasesPrimary Databases

• Original submissions by experimentalistsOriginal submissions by experimentalists

• Database staff organize but don’t add additional informationDatabase staff organize but don’t add additional information• Example:Example: GenBankGenBank

Derivative DatabasesDerivative Databases

• Human curatedHuman curated

• compilation and correction of datacompilation and correction of data

• Example:Example: SWISS-PROT, NCBI RefSeq mRNASWISS-PROT, NCBI RefSeq mRNA

• Computationally DerivedComputationally Derived

• Example:Example: UniGeneUniGene

• CombinationsCombinations

• Example:Example: NCBI Genome AssemblyNCBI Genome Assembly

Page 48: Lushan Wang 2008.10.29

NC

BI

Primary vs. Derivative DatabasesPrimary vs. Derivative Databases

GenBank

SequencingCenters

UniGene

RefSeq:Entrez Gene andGenomes pipelines

RefSeq:annotation pipeline

Labs

Updated ONLY by submitters

EST UniSTS

STS

GSS

HTG

PRI ROD PLN MAM BCT

INV VRT PHG VRL

Curators

ATT GA

ATT

C

GA

C

GA

C

C

CATT

TAACT

Updated

by NCBI

RefSeq

Page 49: Lushan Wang 2008.10.29

NC

BI

The GenBank RecordThe GenBank Record

Page 50: Lushan Wang 2008.10.29

NC

BI

A Typical GenBank RecordA Typical GenBank RecordA Typical GenBank RecordA Typical GenBank Record

LOCUS NM_019570 4279 bp mRNA linear INV 28-OCT-2004DEFINITION Mus musculus REV1-like(S. cerevisiae)(Rev1l),mRNAACCESSION NM_019570VERSION NM_019570.3 GI:50811869 KEYWORDS .

= Title

Entrez

Page 51: Lushan Wang 2008.10.29

NC

BI

GenBank Record: Feature TableGenBank Record: Feature Table

Entrez

Page 52: Lushan Wang 2008.10.29

NC

BI

GenBank Record: Feature TableGenBank Record: Feature Table

GenPept identifier

Blast

Entrez

Page 53: Lushan Wang 2008.10.29

NC

BI

GenBank Record: sequenceGenBank Record: sequence

skip Blast

Page 54: Lushan Wang 2008.10.29

NC

BI

BLAST

Mendelian Inheritance in Man

NCBI Homepage

NCBI Homepage

Entrez

Page 55: Lushan Wang 2008.10.29

NC

BI

Online HelpOnline Help

Page 56: Lushan Wang 2008.10.29

NC

BI

Using EntrezUsing Entrez

An integrated database search and retrieval An integrated database search and retrieval systemsystem

Page 57: Lushan Wang 2008.10.29

Genomes

Taxonomy

Entrez: Neighboring and Hard Links

PubMed abstracts

Nucleotide sequences

Protein sequences

3-D Structure(MMDB)

3 -D Structure

Word weight

VAST

BLASTBLAST

Phylogeny

Page 58: Lushan Wang 2008.10.29

NC

BI

GEO(gene expression omnibus, 基因表达汇编 ):收集、存贮微阵列基因表达数据的数据库。

p51

Page 59: Lushan Wang 2008.10.29

NC

BI

Page 60: Lushan Wang 2008.10.29

NC

BI

Page 61: Lushan Wang 2008.10.29

NC

BI

Page 62: Lushan Wang 2008.10.29

NC

BI

Page 63: Lushan Wang 2008.10.29

NC

BI

Page 64: Lushan Wang 2008.10.29

NC

BI

Database Searching with EntrezDatabase Searching with Entrez

Using limits and field restriction to find Using limits and field restriction to find mouse GAPDmouse GAPD

Linking and neighboring with Linking and neighboring with mouse GAPDmouse GAPD

Page 65: Lushan Wang 2008.10.29

NC

BI

Entrez NucleotidesEntrez Nucleotides

Mouse

Page 66: Lushan Wang 2008.10.29

NC

BI

Document Summaries: Mouse[All Fields]Document Summaries: Mouse[All Fields]

7 million records

Page 67: Lushan Wang 2008.10.29

NC

BI

Data Rich , Knowledge Poor

不要把自己淹没于不要把自己淹没于「「数据信息的海洋数据信息的海洋」」中,中,要去找要去找「「知识的岛屿知识的岛屿」」。。

Page 68: Lushan Wang 2008.10.29

NC

BI

什么是数据、信息、知识?

一定注意现在生物信息学存贮数据库叫 DATABASE

Page 69: Lushan Wang 2008.10.29

NC

BI

Entrez Nucleotides: Limits: Preview/IndexEntrez Nucleotides: Limits: Preview/Index

Mouse

Page 70: Lushan Wang 2008.10.29

NC

BI

Entrez Nucleotides: LimitsEntrez Nucleotides: LimitsAccessionAll FieldsAuthor NameEC/RN NumberFeature keyFilterGene NameIssueJournal NameKeywordModification DateOrganismPage NumberPrimary AccessionPropertiesProtein NamePublication DateSeqID StringSequence LengthSubstance NameText WordTitle WordUidVolume

Field Restriction

Only FromRefSeqGenBankEMBLDDBJ

Exclude unwanted categories of sequences

MoleculeGenomic DNA/RNAmRNArRNA

Gene LocationGenomic DNA/RNAMitochondrionChloroplast

Mouse

Page 71: Lushan Wang 2008.10.29

NC

BI

Entrez Nucleotides: Limits: OrganismEntrez Nucleotides: Limits: Organism

Mouse

Page 72: Lushan Wang 2008.10.29

NC

BI

Document Summaries: Mouse[Organism]Document Summaries: Mouse[Organism]

7,247,131[All Fields]-6,850,905[Organism]

397,226

Page 73: Lushan Wang 2008.10.29

NC

BI

Exclude Bulk Sequences, mRNAExclude Bulk Sequences, mRNA

Page 74: Lushan Wang 2008.10.29

NC

BI

502497

Page 75: Lushan Wang 2008.10.29

NC

BI

Preview / Index

Page 76: Lushan Wang 2008.10.29

NC

BI

Adding Terms: Preview/IndexAdding Terms: Preview/Index

Search History

Page 77: Lushan Wang 2008.10.29

NC

BI

glyceraldehyde 3 phosphate dehydrogenase

Page 78: Lushan Wang 2008.10.29

NC

BI

mouse AND glyceraldehyde 3 phosphate dehydrogenase[Title]

Page 79: Lushan Wang 2008.10.29

NC

BI

161

Mouse GAPD RecordsMouse GAPD Records

Page 80: Lushan Wang 2008.10.29

NC

BI

Page 81: Lushan Wang 2008.10.29

NC

BI

19

3

Page 82: Lushan Wang 2008.10.29

NC

BI

History

Page 83: Lushan Wang 2008.10.29

NC

BI

Page 84: Lushan Wang 2008.10.29

NC

BI

#18 AND # 6

Page 85: Lushan Wang 2008.10.29

NC

BI

Page 86: Lushan Wang 2008.10.29

NC

BI

Displaying RecordsDisplaying Records

Page 87: Lushan Wang 2008.10.29

NC

BI

Displaying Mouse GAPD RecordsDisplaying Mouse GAPD Records

SummaryBriefGenBankASN.1FASTAGI listLinkOutPubMed LinksProtein LinksNucleotide NeighborsPopSet LinksStructure LinksGenome LinksTaxonomy LinksOMIM Links

Formats

Links and neighbors (related records)

Page 88: Lushan Wang 2008.10.29

NC

BI

Page 89: Lushan Wang 2008.10.29

NC

BI

Page 90: Lushan Wang 2008.10.29

NC

BI

Entrez GenBank / GenPeptEntrez GenBank / GenPept

GenPept

Page 91: Lushan Wang 2008.10.29

NC

BI

>gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glyceraldGGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCCAGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACCACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCTCCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCCCTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCTGACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATTAGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCACACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAACACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGTACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCACTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTATGACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAACTTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGCCATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGCCAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACCCCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGGCTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCACGGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTCGTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACATGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCGGCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC

>

FASTA Format

FASTA Definition Line>gi|193425|gb|M60978.1|MUSGAPDS

gi number

Database Identifiersgb GenBankemb EMBLdbj DDBJsp SWISS-PROTpdb Protein Databankpir PIRprf PRFref RefSeq

Accession number

Locus Name

Page 92: Lushan Wang 2008.10.29

NC

BI

Page 93: Lushan Wang 2008.10.29

NC

BI

Page 94: Lushan Wang 2008.10.29

NC

BI

Page 95: Lushan Wang 2008.10.29

NC

BI

Seq-entry ::= set { level 1 , class nuc-prot , descr { title "Mus musculus testis-specific isoform of glyceraldehyde 3-phosphate dehydrogenase (Gapd-S) mRNA, and translated products" , update-date std { year 1994 , month 11 , day 9 } , source { org { taxname "Mus musculus" , common "house mouse" , db { { db "taxon" , tag id 10090 } } ,

Abstract Syntax Notation: ASN.1Abstract Syntax Notation: ASN.1

FASTA Nucleotide

FASTAProtein

GenPept GenBank

ASN.1

Page 96: Lushan Wang 2008.10.29

NC

BI

Page 97: Lushan Wang 2008.10.29

NC

BI

/******************************************************************************* asn2ff.c* convert an ASN.1 entry to flat file format, using the FFPrintArrayPtrs. ******************************************************************************/#include <accentr.h>#include "asn2ff.h"#include "asn2ffp.h"#include "ffprint.h"#include <subutil.h>#include <objall.h>#include <objcode.h>#include <lsqfetch.h>#include <explore.h>

#ifdef ENABLE_ID1#include <accid1.h>#endif

FILE *fpl;

Args myargs[] = {{"Filename for asn.1 input","stdin",NULL,NULL,TRUE,'a',ARG_FILE_IN,0.0,0,NULL},{"Input is a Seq-entry","F", NULL ,NULL ,TRUE,'e',ARG_BOOLEAN,0.0,0,NULL},{"Input asnfile in binary mode","F",NULL,NULL,TRUE,'b',ARG_BOOLEAN,0.0,0,NULL},{"Output Filename","stdout", NULL,NULL,TRUE,'o',ARG_FILE_OUT,0.0,0,NULL},{"Show Sequence?","T", NULL ,NULL ,TRUE,'h',ARG_BOOLEAN,0.0,0,NULL},

NCBI ToolboxNCBI Toolbox

Toolbox Sources

ftp> open ncbi.nlm.nih.gov..ftp> cd toolboxftp> cd ncbi_tools

ftp://ncbi.nlm.nih.gov/toolbox/ncbi_tools

Page 98: Lushan Wang 2008.10.29

NC

BI

Protein Neighbors-Structure LinksProtein Neighbors-Structure Links

Page 99: Lushan Wang 2008.10.29

NC

BI

Page 100: Lushan Wang 2008.10.29

NC

BI

Page 101: Lushan Wang 2008.10.29

NC

BI

Page 102: Lushan Wang 2008.10.29

NC

BI

Page 103: Lushan Wang 2008.10.29

NC

BI

Page 104: Lushan Wang 2008.10.29

NC

BI

Page 105: Lushan Wang 2008.10.29

NC

BI

Page 106: Lushan Wang 2008.10.29

NC

BI

Page 107: Lushan Wang 2008.10.29

NC

BI

Page 108: Lushan Wang 2008.10.29

NC

BI

Related Proteins

Protein Neighbors-Structure LinksProtein Neighbors-Structure Links

Structure Links

Cn3D GAPD Structure

Page 109: Lushan Wang 2008.10.29

NC

BI

Advanced Neighbors: BLinkAdvanced Neighbors: BLink

Page 110: Lushan Wang 2008.10.29

NC

BI

BLinkBLink

Page 111: Lushan Wang 2008.10.29

NC

BI

Online BooksOnline Books

Page 112: Lushan Wang 2008.10.29

NC

BI

建 议 千万不要使自己成为千万不要使自己成为 datadata 的收集者,不要的收集者,不要使自己只成为使自己只成为 databasedatabase (这是计算机的工(这是计算机的工作),要成为这些信息的加工者,使自己作),要成为这些信息的加工者,使自己成为成为有知识有知识的人!的人!

华罗庚华罗庚

• 读书要从薄到厚读书要从薄到厚 ,, 从厚到薄。从厚到薄。