Upload
shafira-campbell
View
33
Download
9
Embed Size (px)
DESCRIPTION
Bioinformatics database and retrieval strategy. Lushan Wang 2008.10.29. Content. 重要生物信息数据库 生物信息数据及其格式 数据库检索工具 Entrez. 1 、重要生物信息中心 Bioinformatics Centres. NCBI National Center for Biotechnology Information (US) www.ncbi.nlm.nih.gov EBI European Bioinformatics Institute (EU) - PowerPoint PPT Presentation
Citation preview
NC
BI
Lushan WangLushan Wang
2008.10.292008.10.29
Bioinformatics database and retrieval strategy
NC
BI
1. 重要生物信息数据库
2. 生物信息数据及其格式
3. 数据库检索工具 Entrez
Content
NC
BI
NC
BI
NC
BI
1 、重要生物信息中心 Bioinformatics Centres1 、重要生物信息中心 Bioinformatics Centres
NCBI NCBI National Center for Biotechnology Information National Center for Biotechnology Information (US)(US) www.ncbi.nlm.nih.govwww.ncbi.nlm.nih.gov
EBIEBI European Bioinformatics Institute European Bioinformatics Institute (EU)(EU)
www.ebi.ac.ukwww.ebi.ac.uk
DDBJ DNA Data Bank of Japan DDBJ DNA Data Bank of Japan (JP)(JP)
www.ddbj.nig.ac.jpwww.ddbj.nig.ac.jp
ExPASyExPASy Expert of Protein Analysis System ( Expert of Protein Analysis System (SwitzerlandSwitzerland ) )
www.expasy.chwww.expasy.ch
PDB Protein Data Bank (US)PDB Protein Data Bank (US)
www.rcsb.org/pdb/ www.rcsb.org/pdb/
CBIPKU CBIPKU 北京大学生物信息中心 北京大学生物信息中心 (( CNCN ))
www.cbi.pku.edu.cn/chinese/www.cbi.pku.edu.cn/chinese/
BioSino BioSino 中国生物信息中心 中国生物信息中心 (CN )(CN )
www.biosino.orgwww.biosino.org
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
Tools for Bioinformatics ResearchTools for Bioinformatics Research
EntrezEntrez SRSSRS
NC
BI
数据库的集成与检索界面的统一数据库的集成与检索界面的统一
XML XML
Site A Site B
Data Integration
NC
BI
NC
BI
SRSSRS
((SSequence equence RRetrieval etrieval SSystemystem ) )
SRSSRS 是欧洲分子生物学网是欧洲分子生物学网 EMBnetEMBnet 的主要检索工具的主要检索工具
SRS, Sequence Retrieval System, is a powerful database
management system developed specifically for biological
databases. The goal of SRS is to provide an efficient access to
databases with biological contents no matter in what format are
they available and allowing for complex search criteria.
NC
BI
数据库记录的格式与检索路口
NC
BI
核酸 / 蛋白质数据库记录的组成核酸 / 蛋白质数据库记录的组成
由于历史原因,各种生物数据库采用了由于历史原因,各种生物数据库采用了不同的信息格式不同的信息格式,许多,许多
生物计算机软件也要求生物计算机软件也要求特定的核酸和蛋白质序列输入格式特定的核酸和蛋白质序列输入格式。。
一个数据库记录一个数据库记录 (entry)(entry) 一般由两部分组成:一般由两部分组成:原始序列数据原始序列数据和描和描
述这些数据述这些数据生物学信息的注释生物学信息的注释 (annotation)(annotation) 。注释中包含的信。注释中包含的信
息与相应的序列数据同样重要和有应用价值,值得注意。息与相应的序列数据同样重要和有应用价值,值得注意。
序列部分和注释部分两者都有固定格式,以便计算机读取。各序列部分和注释部分两者都有固定格式,以便计算机读取。各
个 数 据 库 的 具 体 格 式 又 有 所 不 同 , 大 致 分 成个 数 据 库 的 具 体 格 式 又 有 所 不 同 , 大 致 分 成 GenBankGenBank 和和
EMBLEMBL 两种风格。两种风格。
NC
BI
GenBank RecordsGenBank Records
Header
Feature Table
Sequence
The Flatfile Format
NC
BI
GenBank 格式GenBank 格式
GenBankGenBank 格式:格式:每个条目都是一份每个条目都是一份纯文本文件纯文本文件。每行左端为空格或为识别字,。每行左端为空格或为识别字,识别字均为识别字均为完整英文字完整英文字,不用缩写。,不用缩写。
格式可以分成格式可以分成 33 个部分:个部分:
11 ))头部包含关于整个序列的信息(描述字符),从 头部包含关于整个序列的信息(描述字符),从 LOCUSLOCUS 行行到到 ORIGINORIGIN 行行;;
22 )注释这一序列的特性()注释这一序列的特性( Feature TableFeature Table ),为注释核心部分;),为注释核心部分;
33 )序列本身)序列本身 (Sequence)(Sequence) 。。注:所有的核苷酸数据库记录(注:所有的核苷酸数据库记录( EMBL/GenBank/DDBJ)EMBL/GenBank/DDBJ) 都在都在最后一行以最后一行以 //// 结尾。结尾。
NC
BI
GenBank 格式
NC
BI
EMBL 格式EMBL 格式
EMBLEMBL 格式:格式:
欧洲分子生物学欧洲分子生物学 EMBLEMBL 数据库的每个条目是一份数据库的每个条目是一份纯文本文件纯文本文件
,每一行最前面是由,每一行最前面是由两个大写字母组成两个大写字母组成的识别标志,常见的的识别标志,常见的
识别标志列举在后面的表中。识别标志“特性表”识别标志列举在后面的表中。识别标志“特性表” FTFT 包含一包含一
批关键字,它们的定义已经与批关键字,它们的定义已经与 GenBankGenBank 和和 DDBJDDBJ 统一。下欧统一。下欧
洲国家的许多数据库如洲国家的许多数据库如 SWISS-SWISS-
PROTPROT 、、 ENZYMEENZYME 、、 TRANSFACTRANSFAC 等,都采用与等,都采用与 EMBLEMBL 一致一致
的格式。的格式。
NC
BI
EMBL 格式
NC
BI
数据库记录注释代码和内容说明 数据库记录注释代码和内容说明 EMBLEMBL 识别标志识别标志 GenBankGenBank 识别字识别字 意义意义
ID ID LOCUS LOCUS 序列名称序列名称
DEDE DEFINITIONDEFINITION 序列简单说明序列简单说明
AC AC ACCESSION ACCESSION 唯一的提取号唯一的提取号
OSOS SOURCESOURCE 序列来源的物种名序列来源的物种名
OC OC ORGANISM ORGANISM 序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置
DT DT 建立日期建立日期
KW KW KEYWORDSKEYWORDS 与序列相关的关键词与序列相关的关键词
RNRN REFERENCEREFERENCE 相关文献编号,或递交序列的注册信息相关文献编号,或递交序列的注册信息
RARA AUTHORSAUTHORS 相关文献作者,或递交序列的作者相关文献作者,或递交序列的作者
RTRT TITLETITLE 相关文献题目相关文献题目
RLRL JOURNALJOURNAL 引文出处引文出处相关文献刊物杂志名,或递交序列的作者单位相关文献刊物杂志名,或递交序列的作者单位
RXRX MEDLINE MEDLINE 相关文献相关文献 MedlineMedline 引文代码引文代码
RPRP 相关文献其它注释相关文献其它注释
p18
NC
BI
数据库记录注释代码和内容说明( cont. )数据库记录注释代码和内容说明( cont. )EMBLEMBL 识别标志识别标志 GenBankGenBank 识别字识别字 意义意义
RCRC REMARKREMARK 相关文献注释相关文献注释
DRDR 相关数据库交叉引用号相关数据库交叉引用号
XXXX 为阅读清晰而加的空行为阅读清晰而加的空行
CC CC COMMENT COMMENT 评注评注
NI NI VERSION VERSION 可更新的序列版本号可更新的序列版本号
FH FH FEATURES FEATURES 序列特征表起始序列特征表起始
FT FT FEATURES FEATURES 特性表特性表
SQ SQ EMBLEMBL 序列开始标志,后随长度、字母数序列开始标志,后随长度、字母数
BASE COUNT BASE COUNT GenBankGenBank 碱基数目碱基数目
ORIGIN ORIGIN GenBankGenBank 序列开始标志,该行空序列开始标志,该行空
// // // // 序列结束标志,空行序列结束标志,空行
p18
NC
BI
LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000
序列和数据库标识序列和数据库标识
位置位置 , , 提取号提取号 , , 版本 版本 Definition accession versionDefinition accession version
DEFINITION Limulus polyphemus myosin III mRNA, complete cds.
GB DivisionLocus 名字
简单描述 ( 标题 )
修改日期序列类型mRNA (= cDNA)rRNAsnRNADNA
序列长度
VERSION AF062069.2 GI:7144484
ACCESSION AF062069
提取号
Accession.version gi number最古老的甲壳动物——鲎( hòu )肌球蛋白 III
NC
BI
关键字,生物体来源 Keywords and source关键字,生物体来源 Keywords and source
KEYWORDS .SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus.
序列来源的物种名
序列来源的物种学名和分类学位置
可更新的序列版本号
后生动物
NC
BI
REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In pressREFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USAREFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitterCOMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
引用(参考文献) Reference引用(参考文献) Reference
以前版本号
相关文献编号,或递交序列的注册信息
相关文献作者,或递交序列的作者
相关文献题目
引文出处相关文献刊物杂志名,或递交序列的作者单位
评注
NC
BI
FEATURES Location/Qualifiers source 1..3808 /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC16332.2" /db_xref="GI:7144485" /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL"
特性表 (Features)特性表 (Features)
编码序列
Biosource
阅读框
GenPept Protein Identifiers
NC
BI
BASE COUNT 1201 a 689 c 782 g 1136 tORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt <sequence omitted> 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa
//
SequenceSequence
记录结束标记
指示序列数据的起始GenBank 碱基数目
NC
BI
PDB 数据库文件格式PDB 数据库文件格式分子类别
-- 水解酶类(氧连接糖
基化)
该文件的公布日期
该结构的pdb 代码
该化合物名称人类唾液淀粉
酶
该化合物的来源
结构测定者名字
REMARK 是此 pdb 文件的参考书目、最大分辨率、注
解等
NC
BI
REMARK 的部分讲解REMARK 的部分讲解
图中图中 11 处指出蛋白质原子数为处指出蛋白质原子数为 39463946 ,, 22 处指出核酸原子数为处指出核酸原子数为00 ,, 33 处指出异型原子数为处指出异型原子数为 22 ,, 44 处指出溶剂原子数为处指出溶剂原子数为 169 169
指出蛋白质原子数
核酸原子数
异型原子数溶剂原子数
NC
BI
SEQRES 部分 SEQRES 部分
EQRESEQRES 部分表示了该分子包含部分表示了该分子包含 496496 个氨基酸残基,并将每个残基个氨基酸残基,并将每个残基符号依次列出:符号依次列出:
NC
BI
HELIX 部分HELIX 部分
下面下面 HELIXHELIX 部分显示的是分子中部分显示的是分子中 αα 螺旋的组成和信息,如图螺旋的组成和信息,如图::
NC
BI
β 折叠β 折叠
然后下面就是然后下面就是 ββ 折叠的组成和信息了,如下图:折叠的组成和信息了,如下图:
NC
BI
分子的原子信息分子的原子信息 下面就是该分子的原子信息,我们先给出下面就是该分子的原子信息,我们先给出 FormatFormat 列的格式列列的格式列
表,然后进行一下详细的说明,如下图:表,然后进行一下详细的说明,如下图:列号 列号 目录 目录 fmt fmt
1-6 1-6 ATOMATOM 或或 HETATM HETATM All All
7-11 7-11 原子序列号(可以有空格) 原子序列号(可以有空格) All All
13-16 13-16 按按 IUPACIUPAC 标准格式的原子名称标准格式的原子名称 All All
17 17 构象标识符,用构象标识符,用 A,B,CA,B,C 表示表示 All All
18-2018-20 按按 IUPACIUPAC 标准格式的残基名称 标准格式的残基名称 All All
23-2623-26 残基序列号 残基序列号 All All
2727 插入残基的编码(如:插入残基的编码(如: 66A&66B) 66A&66B) All All
31-3831-38 XX 坐标轴 坐标轴 All All
39-4639-46 YY 坐标轴 坐标轴 All All
47-54 47-54 ZZ 坐标轴 坐标轴 All All
55-60 55-60 位置 位置 All All
61-66 61-66 温度因子 温度因子 All All
68-70 68-70 脚注编号 脚注编号 9292
73-76 73-76 片段指示符(左对齐) 片段指示符(左对齐) 9696
77-78 77-78 元素符号(右对齐) 元素符号(右对齐) 9696
79-80 79-80 原子带的电荷 原子带的电荷 9696
p21
NC
BI
分子的原子信息详解分子的原子信息详解
表示所指为原子
该原子序列号
IUPAC 标准
格式的原子名称
残基名称
残基序列号
原子
的 X坐标轴
Y坐标轴
Z坐标轴
位置
温度因子
片段指示符
NC
BI
TER 、 HETATM 、 CONECT 、 ENDTER 、 HETATM 、 CONECT 、 END
TERTER 记录,它记录主链分子中的链末端,在记录,它记录主链分子中的链末端,在 TERTER 后面的后面的HETATMHETATM 就是记录异型原子的信息。就是记录异型原子的信息。
在在 HETATMHETATM 记录的后面还有一些记录的后面还有一些 CONECTCONECT 记录。记录。 CONECTCONECT
详细的描述了已给出坐标的原子间的连通性。而这种连通性是详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。以该记录的原子序列号的形式表现的。 CONECTCONECT 记录是用来记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。被详细列出的键。
最后,在整个文件的结尾还有一个最后,在整个文件的结尾还有一个 ENDEND 记录表示文件结束。记录表示文件结束。
NC
BI
快速准确的检索策略快速准确的检索策略
semanticmapping
semanticmapping
AttributesRelations
查询 语义映射和处理过程 结果
语义匹配
NC
BI
Knowledge Discovery in Databases
Data Warehouse
Prepareddata
Data
CleaningIntegration
SelectionTransformation
DataMining
Patterns
EvaluationVisualization
KnowledgeKnowledge
Base
NC
BI
The National Center for Biotechnology Information (NCBI)
The National Center for Biotechnology Information (NCBI)
Created Created as a part of the National Library of Medicine in as a part of the National Library of Medicine in
19881988
ToolsTools: : EntrezEntrez (1992) (1992) ,, BLASTBLAST(1990), (1990),
GenBank GenBank (1992)(1992)
Free Free MEDLINEMEDLINE (PubMed, 1997) (PubMed, 1997)
Other databasesOther databases: dbEST, dbGSS, dbSTS, MMDB, OMIM, : dbEST, dbGSS, dbSTS, MMDB, OMIM,
UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink,
RefSeqRefSeq
NC
BI
The National Institutes of HealthThe National Institutes of Health
Bethesda, MD
NC
BI
The National Center for Biotechnology InformationThe National Center for
Biotechnology Information
Accepts submissions of primary dataAccepts submissions of primary data
Develops tools to analyze these dataDevelops tools to analyze these data
Creates derivative databases based on the primary dataCreates derivative databases based on the primary data
Provides free search, link, and retrieval of these data, primarily through the Provides free search, link, and retrieval of these data, primarily through the
Entrez systemEntrez system
NC
BI
NCBI WWW Users per DayNCBI WWW Users per Day
NC
BI
Number of Users and Hits Per DayNumber of Users and Hits Per Day
0
50,000
100,000
150,000
200,000
250,000
300,000
350,000
400,000
450,000
Nu
mb
er
of
Us
ers
1997 1998 1999 2000 2001 2002 2003
Christmas & New Year
NC
BI
Homepage - accessing the dataHomepage - accessing the dataall[filter]
p53
NC
BI
all[filter]
1/11/2005
29/10/2008
NC
BI
NC
BI
Molecular DatabasesMolecular Databases
Primary DatabasesPrimary Databases
• Original submissions by experimentalistsOriginal submissions by experimentalists
• Database staff organize but don’t add additional informationDatabase staff organize but don’t add additional information• Example:Example: GenBankGenBank
Derivative DatabasesDerivative Databases
• Human curatedHuman curated
• compilation and correction of datacompilation and correction of data
• Example:Example: SWISS-PROT, NCBI RefSeq mRNASWISS-PROT, NCBI RefSeq mRNA
• Computationally DerivedComputationally Derived
• Example:Example: UniGeneUniGene
• CombinationsCombinations
• Example:Example: NCBI Genome AssemblyNCBI Genome Assembly
NC
BI
Primary vs. Derivative DatabasesPrimary vs. Derivative Databases
GenBank
SequencingCenters
UniGene
RefSeq:Entrez Gene andGenomes pipelines
RefSeq:annotation pipeline
Labs
Updated ONLY by submitters
EST UniSTS
STS
GSS
HTG
PRI ROD PLN MAM BCT
INV VRT PHG VRL
Curators
ATT GA
ATT
C
GA
C
GA
C
C
CATT
TAACT
Updated
by NCBI
RefSeq
NC
BI
The GenBank RecordThe GenBank Record
NC
BI
A Typical GenBank RecordA Typical GenBank RecordA Typical GenBank RecordA Typical GenBank Record
LOCUS NM_019570 4279 bp mRNA linear INV 28-OCT-2004DEFINITION Mus musculus REV1-like(S. cerevisiae)(Rev1l),mRNAACCESSION NM_019570VERSION NM_019570.3 GI:50811869 KEYWORDS .
= Title
Entrez
NC
BI
GenBank Record: Feature TableGenBank Record: Feature Table
Entrez
NC
BI
GenBank Record: Feature TableGenBank Record: Feature Table
GenPept identifier
Blast
Entrez
NC
BI
GenBank Record: sequenceGenBank Record: sequence
skip Blast
NC
BI
BLAST
Mendelian Inheritance in Man
NCBI Homepage
NCBI Homepage
Entrez
NC
BI
Online HelpOnline Help
NC
BI
Using EntrezUsing Entrez
An integrated database search and retrieval An integrated database search and retrieval systemsystem
Genomes
Taxonomy
Entrez: Neighboring and Hard Links
PubMed abstracts
Nucleotide sequences
Protein sequences
3-D Structure(MMDB)
3 -D Structure
Word weight
VAST
BLASTBLAST
Phylogeny
NC
BI
GEO(gene expression omnibus, 基因表达汇编 ):收集、存贮微阵列基因表达数据的数据库。
p51
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
Database Searching with EntrezDatabase Searching with Entrez
Using limits and field restriction to find Using limits and field restriction to find mouse GAPDmouse GAPD
Linking and neighboring with Linking and neighboring with mouse GAPDmouse GAPD
NC
BI
Entrez NucleotidesEntrez Nucleotides
Mouse
NC
BI
Document Summaries: Mouse[All Fields]Document Summaries: Mouse[All Fields]
7 million records
NC
BI
Data Rich , Knowledge Poor
不要把自己淹没于不要把自己淹没于「「数据信息的海洋数据信息的海洋」」中,中,要去找要去找「「知识的岛屿知识的岛屿」」。。
NC
BI
什么是数据、信息、知识?
一定注意现在生物信息学存贮数据库叫 DATABASE
NC
BI
Entrez Nucleotides: Limits: Preview/IndexEntrez Nucleotides: Limits: Preview/Index
Mouse
NC
BI
Entrez Nucleotides: LimitsEntrez Nucleotides: LimitsAccessionAll FieldsAuthor NameEC/RN NumberFeature keyFilterGene NameIssueJournal NameKeywordModification DateOrganismPage NumberPrimary AccessionPropertiesProtein NamePublication DateSeqID StringSequence LengthSubstance NameText WordTitle WordUidVolume
Field Restriction
Only FromRefSeqGenBankEMBLDDBJ
Exclude unwanted categories of sequences
MoleculeGenomic DNA/RNAmRNArRNA
Gene LocationGenomic DNA/RNAMitochondrionChloroplast
Mouse
NC
BI
Entrez Nucleotides: Limits: OrganismEntrez Nucleotides: Limits: Organism
Mouse
NC
BI
Document Summaries: Mouse[Organism]Document Summaries: Mouse[Organism]
7,247,131[All Fields]-6,850,905[Organism]
397,226
NC
BI
Exclude Bulk Sequences, mRNAExclude Bulk Sequences, mRNA
NC
BI
502497
NC
BI
Preview / Index
NC
BI
Adding Terms: Preview/IndexAdding Terms: Preview/Index
Search History
NC
BI
glyceraldehyde 3 phosphate dehydrogenase
NC
BI
mouse AND glyceraldehyde 3 phosphate dehydrogenase[Title]
NC
BI
161
Mouse GAPD RecordsMouse GAPD Records
NC
BI
NC
BI
19
3
NC
BI
History
NC
BI
NC
BI
#18 AND # 6
NC
BI
NC
BI
Displaying RecordsDisplaying Records
NC
BI
Displaying Mouse GAPD RecordsDisplaying Mouse GAPD Records
SummaryBriefGenBankASN.1FASTAGI listLinkOutPubMed LinksProtein LinksNucleotide NeighborsPopSet LinksStructure LinksGenome LinksTaxonomy LinksOMIM Links
Formats
Links and neighbors (related records)
NC
BI
NC
BI
NC
BI
Entrez GenBank / GenPeptEntrez GenBank / GenPept
GenPept
NC
BI
>gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glyceraldGGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCCAGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACCACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCTCCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCCCTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCTGACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATTAGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCACACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAACACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGTACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCACTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTATGACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAACTTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGCCATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGCCAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACCCCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGGCTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCACGGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTCGTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACATGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCGGCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC
>
FASTA Format
FASTA Definition Line>gi|193425|gb|M60978.1|MUSGAPDS
gi number
Database Identifiersgb GenBankemb EMBLdbj DDBJsp SWISS-PROTpdb Protein Databankpir PIRprf PRFref RefSeq
Accession number
Locus Name
NC
BI
NC
BI
NC
BI
NC
BI
Seq-entry ::= set { level 1 , class nuc-prot , descr { title "Mus musculus testis-specific isoform of glyceraldehyde 3-phosphate dehydrogenase (Gapd-S) mRNA, and translated products" , update-date std { year 1994 , month 11 , day 9 } , source { org { taxname "Mus musculus" , common "house mouse" , db { { db "taxon" , tag id 10090 } } ,
Abstract Syntax Notation: ASN.1Abstract Syntax Notation: ASN.1
FASTA Nucleotide
FASTAProtein
GenPept GenBank
ASN.1
NC
BI
NC
BI
/******************************************************************************* asn2ff.c* convert an ASN.1 entry to flat file format, using the FFPrintArrayPtrs. ******************************************************************************/#include <accentr.h>#include "asn2ff.h"#include "asn2ffp.h"#include "ffprint.h"#include <subutil.h>#include <objall.h>#include <objcode.h>#include <lsqfetch.h>#include <explore.h>
#ifdef ENABLE_ID1#include <accid1.h>#endif
FILE *fpl;
Args myargs[] = {{"Filename for asn.1 input","stdin",NULL,NULL,TRUE,'a',ARG_FILE_IN,0.0,0,NULL},{"Input is a Seq-entry","F", NULL ,NULL ,TRUE,'e',ARG_BOOLEAN,0.0,0,NULL},{"Input asnfile in binary mode","F",NULL,NULL,TRUE,'b',ARG_BOOLEAN,0.0,0,NULL},{"Output Filename","stdout", NULL,NULL,TRUE,'o',ARG_FILE_OUT,0.0,0,NULL},{"Show Sequence?","T", NULL ,NULL ,TRUE,'h',ARG_BOOLEAN,0.0,0,NULL},
NCBI ToolboxNCBI Toolbox
Toolbox Sources
ftp> open ncbi.nlm.nih.gov..ftp> cd toolboxftp> cd ncbi_tools
ftp://ncbi.nlm.nih.gov/toolbox/ncbi_tools
NC
BI
Protein Neighbors-Structure LinksProtein Neighbors-Structure Links
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
NC
BI
Related Proteins
Protein Neighbors-Structure LinksProtein Neighbors-Structure Links
Structure Links
Cn3D GAPD Structure
NC
BI
Advanced Neighbors: BLinkAdvanced Neighbors: BLink
NC
BI
BLinkBLink
NC
BI
Online BooksOnline Books
NC
BI
建 议 千万不要使自己成为千万不要使自己成为 datadata 的收集者,不要的收集者,不要使自己只成为使自己只成为 databasedatabase (这是计算机的工(这是计算机的工作),要成为这些信息的加工者,使自己作),要成为这些信息的加工者,使自己成为成为有知识有知识的人!的人!
华罗庚华罗庚
• 读书要从薄到厚读书要从薄到厚 ,, 从厚到薄。从厚到薄。