Lushan Wang 2008.10.29

NC

BI

Lushan WangLushan Wang

2008.10.292008.10.29

Bioinformatics database and retrieval strategy

NC

BI

1. 重要生物信息数据库

2. 生物信息数据及其格式

3. 数据库检索工具 Entrez

Content

NC

BI

NC

BI

NC

BI

1 、重要生物信息中心 Bioinformatics Centres1 、重要生物信息中心 Bioinformatics Centres

NCBI NCBI National Center for Biotechnology Information National Center for Biotechnology Information (US)(US) www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov

EBIEBI European Bioinformatics Institute European Bioinformatics Institute (EU)(EU)

www.ebi.ac.ukwww.ebi.ac.uk

DDBJ DNA Data Bank of Japan DDBJ DNA Data Bank of Japan (JP)(JP)

www.ddbj.nig.ac.jpwww.ddbj.nig.ac.jp

ExPASyExPASy Expert of Protein Analysis System ( Expert of Protein Analysis System (SwitzerlandSwitzerland ) )

www.expasy.chwww.expasy.ch

PDB Protein Data Bank (US)PDB Protein Data Bank (US)

www.rcsb.org/pdb/ www.rcsb.org/pdb/

CBIPKU CBIPKU 北京大学生物信息中心北京大学生物信息中心（（ CNCN ））

www.cbi.pku.edu.cn/chinese/www.cbi.pku.edu.cn/chinese/

BioSino BioSino 中国生物信息中心中国生物信息中心 (CN )(CN )

www.biosino.orgwww.biosino.org

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

Tools for Bioinformatics ResearchTools for Bioinformatics Research

EntrezEntrez SRSSRS

NC

BI

数据库的集成与检索界面的统一数据库的集成与检索界面的统一

XML XML

Site A Site B

Data Integration

NC

BI

NC

BI

SRSSRS

((SSequence equence RRetrieval etrieval SSystemystem ) )

SRSSRS 是欧洲分子生物学网是欧洲分子生物学网 EMBnetEMBnet 的主要检索工具的主要检索工具

SRS, Sequence Retrieval System, is a powerful database

management system developed specifically for biological

databases. The goal of SRS is to provide an efficient access to

databases with biological contents no matter in what format are

they available and allowing for complex search criteria.

NC

BI

数据库记录的格式与检索路口

NC

BI

核酸 / 蛋白质数据库记录的组成核酸 / 蛋白质数据库记录的组成

由于历史原因，各种生物数据库采用了由于历史原因，各种生物数据库采用了不同的信息格式不同的信息格式，许多，许多

生物计算机软件也要求生物计算机软件也要求特定的核酸和蛋白质序列输入格式特定的核酸和蛋白质序列输入格式。。

一个数据库记录一个数据库记录 (entry)(entry) 一般由两部分组成：一般由两部分组成：原始序列数据原始序列数据和描和描

述这些数据述这些数据生物学信息的注释生物学信息的注释 (annotation)(annotation) 。注释中包含的信。注释中包含的信

息与相应的序列数据同样重要和有应用价值，值得注意。息与相应的序列数据同样重要和有应用价值，值得注意。

序列部分和注释部分两者都有固定格式，以便计算机读取。各序列部分和注释部分两者都有固定格式，以便计算机读取。各

个数据库的具体格式又有所不同，大致分成个数据库的具体格式又有所不同，大致分成 GenBankGenBank 和和

EMBLEMBL 两种风格。两种风格。

NC

BI

GenBank RecordsGenBank Records

Header

Feature Table

Sequence

The Flatfile Format

NC

BI

GenBank 格式GenBank 格式

GenBankGenBank 格式：格式：每个条目都是一份每个条目都是一份纯文本文件纯文本文件。每行左端为空格或为识别字，。每行左端为空格或为识别字，识别字均为识别字均为完整英文字完整英文字，不用缩写。，不用缩写。

格式可以分成格式可以分成 33 个部分：个部分：

11 ））头部包含关于整个序列的信息（描述字符），从头部包含关于整个序列的信息（描述字符），从 LOCUSLOCUS 行行到到 ORIGINORIGIN 行行；；

22 ）注释这一序列的特性（）注释这一序列的特性（ Feature TableFeature Table ），为注释核心部分；），为注释核心部分；

33 ）序列本身）序列本身 (Sequence)(Sequence) 。。注：所有的核苷酸数据库记录（注：所有的核苷酸数据库记录（ EMBL/GenBank/DDBJ)EMBL/GenBank/DDBJ) 都在都在最后一行以最后一行以 //// 结尾。结尾。

NC

BI

GenBank 格式

NC

BI

EMBL 格式EMBL 格式

EMBLEMBL 格式：格式：

欧洲分子生物学欧洲分子生物学 EMBLEMBL 数据库的每个条目是一份数据库的每个条目是一份纯文本文件纯文本文件

，每一行最前面是由，每一行最前面是由两个大写字母组成两个大写字母组成的识别标志，常见的的识别标志，常见的

识别标志列举在后面的表中。识别标志“特性表”识别标志列举在后面的表中。识别标志“特性表” FTFT 包含一包含一

批关键字，它们的定义已经与批关键字，它们的定义已经与 GenBankGenBank 和和 DDBJDDBJ 统一。下欧统一。下欧

洲国家的许多数据库如洲国家的许多数据库如 SWISS-SWISS-

PROTPROT 、、 ENZYMEENZYME 、、 TRANSFACTRANSFAC 等，都采用与等，都采用与 EMBLEMBL 一致一致

的格式。的格式。

NC

BI

EMBL 格式

NC

BI

数据库记录注释代码和内容说明数据库记录注释代码和内容说明 EMBLEMBL 识别标志识别标志 GenBankGenBank 识别字识别字意义意义

ID ID LOCUS LOCUS 序列名称序列名称

DEDE DEFINITIONDEFINITION 序列简单说明序列简单说明

AC AC ACCESSION ACCESSION 唯一的提取号唯一的提取号

OSOS SOURCESOURCE 序列来源的物种名序列来源的物种名

OC OC ORGANISM ORGANISM 序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置

DT DT 建立日期建立日期

KW KW KEYWORDSKEYWORDS 与序列相关的关键词与序列相关的关键词

RNRN REFERENCEREFERENCE 相关文献编号，或递交序列的注册信息相关文献编号，或递交序列的注册信息

RARA AUTHORSAUTHORS 相关文献作者，或递交序列的作者相关文献作者，或递交序列的作者

RTRT TITLETITLE 相关文献题目相关文献题目

RLRL JOURNALJOURNAL 引文出处引文出处相关文献刊物杂志名，或递交序列的作者单位相关文献刊物杂志名，或递交序列的作者单位

RXRX MEDLINE MEDLINE 相关文献相关文献 MedlineMedline 引文代码引文代码

RPRP 相关文献其它注释相关文献其它注释

p18

NC

BI

数据库记录注释代码和内容说明（ cont. ）数据库记录注释代码和内容说明（ cont. ）EMBLEMBL 识别标志识别标志 GenBankGenBank 识别字识别字意义意义

RCRC REMARKREMARK 相关文献注释相关文献注释

DRDR 相关数据库交叉引用号相关数据库交叉引用号

XXXX 为阅读清晰而加的空行为阅读清晰而加的空行

CC CC COMMENT COMMENT 评注评注

NI NI VERSION VERSION 可更新的序列版本号可更新的序列版本号

FH FH FEATURES FEATURES 序列特征表起始序列特征表起始

FT FT FEATURES FEATURES 特性表特性表

SQ SQ EMBLEMBL 序列开始标志，后随长度、字母数序列开始标志，后随长度、字母数

BASE COUNT BASE COUNT GenBankGenBank 碱基数目碱基数目

ORIGIN ORIGIN GenBankGenBank 序列开始标志，该行空序列开始标志，该行空

// // // // 序列结束标志，空行序列结束标志，空行

p18

NC

BI

LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000

序列和数据库标识序列和数据库标识

位置位置 , , 提取号提取号 , , 版本版本 Definition accession versionDefinition accession version

DEFINITION Limulus polyphemus myosin III mRNA, complete cds.

GB DivisionLocus 名字

简单描述 ( 标题 )

修改日期序列类型mRNA (= cDNA)rRNAsnRNADNA

序列长度

VERSION AF062069.2 GI:7144484

ACCESSION AF062069

提取号

Accession.version gi number最古老的甲壳动物——鲎（ hòu ）肌球蛋白 III

NC

BI

关键字，生物体来源 Keywords and source关键字，生物体来源 Keywords and source

KEYWORDS .SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; 　　　 Merostomata; Xiphosura; Limulidae; Limulus.

序列来源的物种名

序列来源的物种学名和分类学位置

可更新的序列版本号

后生动物

NC

BI

REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In pressREFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

引用（参考文献） Reference引用（参考文献） Reference

以前版本号

相关文献编号，或递交序列的注册信息

相关文献作者，或递交序列的作者

相关文献题目

引文出处相关文献刊物杂志名，或递交序列的作者单位

评注

NC

BI

FEATURES Location/Qualifiers source 1..3808 /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC16332.2" /db_xref="GI:7144485" /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL"

特性表 (Features)特性表 (Features)

编码序列

Biosource

阅读框

GenPept Protein Identifiers

NC

BI

BASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt <sequence omitted> 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa

//

SequenceSequence

记录结束标记

指示序列数据的起始GenBank 碱基数目

NC

BI

PDB 数据库文件格式PDB 数据库文件格式分子类别

-- 水解酶类（氧连接糖

基化）

该文件的公布日期

该结构的pdb 代码

该化合物名称人类唾液淀粉

酶

该化合物的来源

结构测定者名字

REMARK 是此 pdb 文件的参考书目、最大分辨率、注

解等

NC

BI

REMARK 的部分讲解REMARK 的部分讲解

图中图中 11 处指出蛋白质原子数为处指出蛋白质原子数为 39463946 ，， 22 处指出核酸原子数为处指出核酸原子数为00 ，， 33 处指出异型原子数为处指出异型原子数为 22 ，， 44 处指出溶剂原子数为处指出溶剂原子数为 169 169

指出蛋白质原子数

核酸原子数

异型原子数溶剂原子数

NC

BI

SEQRES 部分 SEQRES 部分

EQRESEQRES 部分表示了该分子包含部分表示了该分子包含 496496 个氨基酸残基，并将每个残基个氨基酸残基，并将每个残基符号依次列出：符号依次列出：

NC

BI

HELIX 部分HELIX 部分

下面下面 HELIXHELIX 部分显示的是分子中部分显示的是分子中 αα 螺旋的组成和信息，如图螺旋的组成和信息，如图：：

NC

BI

β 折叠β 折叠

然后下面就是然后下面就是 ββ 折叠的组成和信息了，如下图：折叠的组成和信息了，如下图：

NC

BI

分子的原子信息分子的原子信息下面就是该分子的原子信息，我们先给出下面就是该分子的原子信息，我们先给出 FormatFormat 列的格式列列的格式列

表，然后进行一下详细的说明，如下图：表，然后进行一下详细的说明，如下图：列号列号目录目录 fmt fmt

1-6 1-6 ATOMATOM 或或 HETATM HETATM All All

7-11 7-11 原子序列号（可以有空格）原子序列号（可以有空格） All All

13-16 13-16 按按 IUPACIUPAC 标准格式的原子名称标准格式的原子名称 All All

17 17 构象标识符，用构象标识符，用 A,B,CA,B,C 表示表示 All All

18-2018-20 按按 IUPACIUPAC 标准格式的残基名称标准格式的残基名称 All All

23-2623-26 残基序列号残基序列号 All All

2727 插入残基的编码（如：插入残基的编码（如： 66A&66B) 66A&66B) All All

31-3831-38 XX 坐标轴坐标轴 All All

39-4639-46 YY 坐标轴坐标轴 All All

47-54 47-54 ZZ 坐标轴坐标轴 All All

55-60 55-60 位置位置 All All

61-66 61-66 温度因子温度因子 All All

68-70 68-70 脚注编号脚注编号 9292

73-76 73-76 片段指示符（左对齐）片段指示符（左对齐） 9696

77-78 77-78 元素符号（右对齐）元素符号（右对齐） 9696

79-80 79-80 原子带的电荷原子带的电荷 9696

p21

NC

BI

分子的原子信息详解分子的原子信息详解

表示所指为原子

该原子序列号

IUPAC 标准

格式的原子名称

残基名称

残基序列号

原子

的 X坐标轴

Y坐标轴

Z坐标轴

位置

温度因子

片段指示符

NC

BI

TER 、 HETATM 、 CONECT 、 ENDTER 、 HETATM 、 CONECT 、 END

TERTER 记录，它记录主链分子中的链末端，在记录，它记录主链分子中的链末端，在 TERTER 后面的后面的HETATMHETATM 就是记录异型原子的信息。就是记录异型原子的信息。

在在 HETATMHETATM 记录的后面还有一些记录的后面还有一些 CONECTCONECT 记录。记录。 CONECTCONECT

详细的描述了已给出坐标的原子间的连通性。而这种连通性是详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。以该记录的原子序列号的形式表现的。 CONECTCONECT 记录是用来记录是用来描述那些非标准残基（包括水）和那些在标准连通性表中没有描述那些非标准残基（包括水）和那些在标准连通性表中没有被详细列出的键。被详细列出的键。

最后，在整个文件的结尾还有一个最后，在整个文件的结尾还有一个 ENDEND 记录表示文件结束。记录表示文件结束。

NC

BI

快速准确的检索策略快速准确的检索策略

semanticmapping

semanticmapping

AttributesRelations

查询语义映射和处理过程结果

语义匹配

NC

BI

Knowledge Discovery in Databases

Data Warehouse

Prepareddata

Data

CleaningIntegration

SelectionTransformation

DataMining

Patterns

EvaluationVisualization

KnowledgeKnowledge

Base

NC

BI

The National Center for Biotechnology Information (NCBI)

The National Center for Biotechnology Information (NCBI)

Created Created as a part of the National Library of Medicine in as a part of the National Library of Medicine in

19881988

ToolsTools: : EntrezEntrez (1992) (1992) ，， BLASTBLAST(1990), (1990),

GenBank GenBank (1992)(1992)

Free Free MEDLINEMEDLINE (PubMed, 1997) (PubMed, 1997)

Other databasesOther databases: dbEST, dbGSS, dbSTS, MMDB, OMIM, : dbEST, dbGSS, dbSTS, MMDB, OMIM,

UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink,

RefSeqRefSeq

NC

BI

The National Institutes of HealthThe National Institutes of Health

Bethesda, MD

NC

BI

The National Center for Biotechnology InformationThe National Center for

Biotechnology Information

Accepts submissions of primary dataAccepts submissions of primary data

Develops tools to analyze these dataDevelops tools to analyze these data

Creates derivative databases based on the primary dataCreates derivative databases based on the primary data

Provides free search, link, and retrieval of these data, primarily through the Provides free search, link, and retrieval of these data, primarily through the

Entrez systemEntrez system

NC

BI

NCBI WWW Users per DayNCBI WWW Users per Day

NC

BI

Number of Users and Hits Per DayNumber of Users and Hits Per Day

0

50,000

100,000

150,000

200,000

250,000

300,000

350,000

400,000

450,000

Nu

mb

er

of

Us

ers

1997 1998 1999 2000 2001 2002 2003

Christmas & New Year

NC

BI

Homepage - accessing the dataHomepage - accessing the dataall[filter]

p53

NC

BI

all[filter]

1/11/2005

29/10/2008

NC

BI

NC

BI

Molecular DatabasesMolecular Databases

Primary DatabasesPrimary Databases

• Original submissions by experimentalistsOriginal submissions by experimentalists

• Database staff organize but don’t add additional informationDatabase staff organize but don’t add additional information• Example:Example: GenBankGenBank

Derivative DatabasesDerivative Databases

• Human curatedHuman curated

• compilation and correction of datacompilation and correction of data

• Example:Example: SWISS-PROT, NCBI RefSeq mRNASWISS-PROT, NCBI RefSeq mRNA

• Computationally DerivedComputationally Derived

• Example:Example: UniGeneUniGene

• CombinationsCombinations

• Example:Example: NCBI Genome AssemblyNCBI Genome Assembly

NC

BI

Primary vs. Derivative DatabasesPrimary vs. Derivative Databases

GenBank

SequencingCenters

UniGene

RefSeq:Entrez Gene andGenomes pipelines

RefSeq:annotation pipeline

Labs

Updated ONLY by submitters

EST UniSTS

STS

GSS

HTG

PRI ROD PLN MAM BCT

INV VRT PHG VRL

Curators

ATT GA

ATT

C

GA

C

GA

C

C

CATT

TAACT

Updated

by NCBI

RefSeq

NC

BI

The GenBank RecordThe GenBank Record

NC

BI

A Typical GenBank RecordA Typical GenBank RecordA Typical GenBank RecordA Typical GenBank Record

LOCUS NM_019570 4279 bp mRNA linear INV 28-OCT-2004DEFINITION Mus musculus REV1-like(S. cerevisiae)(Rev1l),mRNAACCESSION NM_019570VERSION NM_019570.3 GI:50811869 KEYWORDS .

= Title

Entrez

NC

BI

GenBank Record: Feature TableGenBank Record: Feature Table

Entrez

NC

BI

GenBank Record: Feature TableGenBank Record: Feature Table

GenPept identifier

Blast

Entrez

NC

BI

GenBank Record: sequenceGenBank Record: sequence

skip Blast

NC

BI

BLAST

Mendelian Inheritance in Man

NCBI Homepage

NCBI Homepage

Entrez

NC

BI

Online HelpOnline Help

NC

BI

Using EntrezUsing Entrez

An integrated database search and retrieval An integrated database search and retrieval systemsystem

Genomes

Taxonomy

Entrez: Neighboring and Hard Links

PubMed abstracts

Nucleotide sequences

Protein sequences

3-D Structure(MMDB)

3 -D Structure

Word weight

VAST

BLASTBLAST

Phylogeny

NC

BI

GEO(gene expression omnibus, 基因表达汇编 )：收集、存贮微阵列基因表达数据的数据库。

p51

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

Database Searching with EntrezDatabase Searching with Entrez

Using limits and field restriction to find Using limits and field restriction to find mouse GAPDmouse GAPD

Linking and neighboring with Linking and neighboring with mouse GAPDmouse GAPD

NC

BI

Entrez NucleotidesEntrez Nucleotides

Mouse

NC

BI

Document Summaries: Mouse[All Fields]Document Summaries: Mouse[All Fields]

7 million records

NC

BI

Data Rich ， Knowledge Poor

不要把自己淹没于不要把自己淹没于「「数据信息的海洋数据信息的海洋」」中，中，要去找要去找「「知识的岛屿知识的岛屿」」。。

NC

BI

什么是数据、信息、知识？

一定注意现在生物信息学存贮数据库叫 DATABASE

NC

BI

Entrez Nucleotides: Limits: Preview/IndexEntrez Nucleotides: Limits: Preview/Index

Mouse

NC

BI

Entrez Nucleotides: LimitsEntrez Nucleotides: LimitsAccessionAll FieldsAuthor NameEC/RN NumberFeature keyFilterGene NameIssueJournal NameKeywordModification DateOrganismPage NumberPrimary AccessionPropertiesProtein NamePublication DateSeqID StringSequence LengthSubstance NameText WordTitle WordUidVolume

Field Restriction

Only FromRefSeqGenBankEMBLDDBJ

Exclude unwanted categories of sequences

MoleculeGenomic DNA/RNAmRNArRNA

Gene LocationGenomic DNA/RNAMitochondrionChloroplast

Mouse

NC

BI

Entrez Nucleotides: Limits: OrganismEntrez Nucleotides: Limits: Organism

Mouse

NC

BI

Document Summaries: Mouse[Organism]Document Summaries: Mouse[Organism]

7,247,131[All Fields]-6,850,905[Organism]

397,226

NC

BI

Exclude Bulk Sequences, mRNAExclude Bulk Sequences, mRNA

NC

BI

502497

NC

BI

Preview / Index

NC

BI

Adding Terms: Preview/IndexAdding Terms: Preview/Index

Search History

NC

BI

glyceraldehyde 3 phosphate dehydrogenase

NC

BI

mouse AND glyceraldehyde 3 phosphate dehydrogenase[Title]

NC

BI

161

Mouse GAPD RecordsMouse GAPD Records

NC

BI

NC

BI

19

3

NC

BI

History

NC

BI

NC

BI

#18 AND # 6

NC

BI

NC

BI

Displaying RecordsDisplaying Records

NC

BI

Displaying Mouse GAPD RecordsDisplaying Mouse GAPD Records

SummaryBriefGenBankASN.1FASTAGI listLinkOutPubMed LinksProtein LinksNucleotide NeighborsPopSet LinksStructure LinksGenome LinksTaxonomy LinksOMIM Links

Formats

Links and neighbors (related records)

NC

BI

NC

BI

NC

BI

Entrez GenBank / GenPeptEntrez GenBank / GenPept

GenPept

NC

BI

>gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glyceraldGGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCCAGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACCACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCTCCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCCCTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCTGACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATTAGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCACACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAACACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGTACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCACTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTATGACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAACTTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGCCATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGCCAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACCCCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGGCTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCACGGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTCGTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACATGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCGGCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC

>

FASTA Format

FASTA Definition Line>gi|193425|gb|M60978.1|MUSGAPDS

gi number

Database Identifiersgb GenBankemb EMBLdbj DDBJsp SWISS-PROTpdb Protein Databankpir PIRprf PRFref RefSeq

Accession number

Locus Name

NC

BI

NC

BI

NC

BI

NC

BI

Seq-entry ::= set { level 1 , class nuc-prot , descr { title "Mus musculus testis-specific isoform of glyceraldehyde 3-phosphate dehydrogenase (Gapd-S) mRNA, and translated products" , update-date std { year 1994 , month 11 , day 9 } , source { org { taxname "Mus musculus" , common "house mouse" , db { { db "taxon" , tag id 10090 } } ,

Abstract Syntax Notation: ASN.1Abstract Syntax Notation: ASN.1

FASTA Nucleotide

FASTAProtein

GenPept GenBank

ASN.1

NC

BI

NC

BI

/******************************************************************************* asn2ff.c* convert an ASN.1 entry to flat file format, using the FFPrintArrayPtrs. ******************************************************************************/#include <accentr.h>#include "asn2ff.h"#include "asn2ffp.h"#include "ffprint.h"#include <subutil.h>#include <objall.h>#include <objcode.h>#include <lsqfetch.h>#include <explore.h>

#ifdef ENABLE_ID1#include <accid1.h>#endif

FILE *fpl;

Args myargs[] = {{"Filename for asn.1 input","stdin",NULL,NULL,TRUE,'a',ARG_FILE_IN,0.0,0,NULL},{"Input is a Seq-entry","F", NULL ,NULL ,TRUE,'e',ARG_BOOLEAN,0.0,0,NULL},{"Input asnfile in binary mode","F",NULL,NULL,TRUE,'b',ARG_BOOLEAN,0.0,0,NULL},{"Output Filename","stdout", NULL,NULL,TRUE,'o',ARG_FILE_OUT,0.0,0,NULL},{"Show Sequence?","T", NULL ,NULL ,TRUE,'h',ARG_BOOLEAN,0.0,0,NULL},

NCBI ToolboxNCBI Toolbox

Toolbox Sources

ftp> open ncbi.nlm.nih.gov..ftp> cd toolboxftp> cd ncbi_tools

ftp://ncbi.nlm.nih.gov/toolbox/ncbi_tools

NC

BI

Protein Neighbors-Structure LinksProtein Neighbors-Structure Links

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

NC

BI

Related Proteins

Protein Neighbors-Structure LinksProtein Neighbors-Structure Links

Structure Links

Cn3D GAPD Structure

NC

BI

Advanced Neighbors: BLinkAdvanced Neighbors: BLink

NC

BI

BLinkBLink

NC

BI

Online BooksOnline Books

NC

BI

建议千万不要使自己成为千万不要使自己成为 datadata 的收集者，不要的收集者，不要使自己只成为使自己只成为 databasedatabase （这是计算机的工（这是计算机的工作），要成为这些信息的加工者，使自己作），要成为这些信息的加工者，使自己成为成为有知识有知识的人！的人！

华罗庚华罗庚

• 读书要从薄到厚读书要从薄到厚 ,, 从厚到薄。从厚到薄。

Documents

Lushan Wang 2008.10.29