NCBI简介及序列编号说明

更新时间：2023-11-15 15:46:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

ncbi已知基因序列如何知道编号推荐度：
相关推荐

一：NCBI简介

NCBI的GenBank与DDBJ(DNA Data Bank of Japan)、EMBL的EBI数据库共同组成国际DNA数据库，每日都交换更新数据和信息，并主持两个国际年会－国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。

GenBank 有来自于70,000多种生物的核苷酸序列。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。（是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据

库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等， 1998)。Entrez 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez 是由NCBI主持的一个数据库检索系统。它包括核酸，蛋白以及Medline文摘数据库，在这三个数据库中建立了非常完善的联系。因此，可以从一个DNA序列查询到蛋白产物以及相关文献，而且，每个条目均有一个类邻（neighboring）信息，给出与查询条目接近的信息。）

DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，亦接受其他国家呈递的序列。

EBI的主要任务：⑴为科学界建立和维护生物学数据库，提供免费的数据和生物信息服务，支持生物学数据的存储和挖掘，促进科技进步；⑵通过生物信息学的基础研究继续推动生物学发展；⑶为各个层次的科学工作者提供生物信息学培训；⑷支持帮助边缘尖端科技成果向工业界的转化；⑸协调欧洲生物数据的提供。

RefSeq是NCBI数据库的参考序列。RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库，它的序列格式和GenBank几乎完全相同，但因为是完全不同的独立资料库,为与GenBank区别，RefSeq的Accession Number格式和GenBank不同。

二：常用序列编号

一般来说，mRNA和基因组序列是我们主要的寻找对象。如果想找标准序列的话，mRNA用NM_开头的，基因组用NC_或者AC_开头的。 1. mRNA

NM_表示标准序列, 为转录产物序列；成熟mRNA转录本序列。

XM_表示预测的蛋白编码序列；mRNA来自基因组注释，序列相当于基因组重叠群。大多数属于预测的。 NR_表示非编码的转录子序列，包括结构RNAs，假基因转子等。 2. 基因组

NC_完整的基因组分子序列，标记的类别包括基因组、染色体、细胞器、质粒。 AC_一些可供选择的注释的基因组序列，主要用来标记病毒和原核生物。

三：ACCESSION编号

ACCESSION是NCBI序列数据中我们常用到编号（另一个是GI）。ACCESSION形式为CC_#####，其中CC为两个字母，其不同组合又可以区分为蛋白序列、核酸序列或基因组序列，而#为位数不等的数字；ACCESSION后面又会加版本号，以CC_####.#形式表示，最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示，代表一个唯一的序列，而且这个编号不会改变。

1）AC_***：genomic mixed，一些可供选择的注释的基因组序列，主要用来标记病毒和原核生物； 2）AP_***：protein mixed，AC_标记序列对应的蛋白产物；

3）NC_***：genomic mixed，完整的基因组分子序列，标记的类别包括基因组、染色体、细胞器、质粒； 4）NG_***：genomic mixed，不完整的基因组区域，提供NCBI基因组注释途径。比较有代表性有不转录的

假基因或者哪些很难自行化注释的基因组簇；

5）NM_***：mRNA mixed，转录组产物序列；成熟mRNA转录本序列；

6）NP_***：protein mixed，蛋白产物；主要是全长转录氨基酸序列，但也有一些只有部分蛋白质的部分氨

基酸序列；

7）NR_***：RNA mixed，非编码的转录子序列，包括结构RNAs，假基因转子等； 8）NT_***：genomic automated，BAC或者鸟枪测序法的还未完全注释的测序序列； 9）NW_***：genomic automated，BAC或者鸟枪法测序的还未完全注释的测序序列；

10）NZ_ABCD1234***：genomic automated，收集的各种利用鸟枪法测序的测序计划，ABCD代表的是计划

名称；

11）XM_***：mRNA automated，转录产物；mRNA来自基因组注释，序列相当于基因组重叠群； 12）XP_***：protein automated，蛋白产物；序列相当于基因组重叠群；

13）XR：RNA automated，转录产物；非编码区来自基因组注释，序列相当于基因组重叠群； 14）YP_***：protein mixed，蛋白产物；不涉及到转录组，主要用来标记细菌、病毒和线粒体； 15）ZP_***：protein automated，蛋白产物；主要是用电脑自动注释； 16）NS_***：genomic automated，未知生物分子基因组序列。

在前面介绍了一些常见序列的accession号，其实在NCBI中还有很多accession号，仅与RNA相关的就有116种，这里各举一个例子供参考。不同的编码代号代表不同的意思，如NM_开头的表示标准序列，XM_表示预测的蛋白编码序列，NR_表示非编码蛋白的mRNA序列，AF开头的表示克隆序列，BC开头的表示模板序列。

四：GI编号:

GI编号是NCBI网站的所有序列相关数据库的流水编号，其最有用的特征就是唯一性。对于每一条递交给NCBI的序列，都会付给一个编号，而且这个编号对应的序列不可更改。这个编号对应这个唯一的一条序列，类似与我们用的身份证号。因此，利用GI在NCBI中查询时，你只要把数据库（蛋白质/核苷酸）选对，只要输入这个号码就可以把相应的序列调出来。

值得一提的是登录号（Accession Number）。每一个递交的序列，除了获得一个GI号，还会被赋予一个登录号。递交序列的作者利用登录号对序列进行修改和完善。每一次修改的序列会获得一个新的GI号，登录号不变，但会追加一个流水的版本号。

因此，GI号和带版本号的登录号都唯一定位到唯一条序列。

（LOCUS出现在GenBank中的LOCUS行以及DDBJ记录（EMBL的ID行）是GenBank中最初的辨识器。由于使用LOCUS（或ID）名称作为对核酸序列唯一辨识器的困难，国际核酸序列数据库合作者们（DDBJ/EMBL/GenBank）引入了序列号。NCBI给每个记录赋予一个gi（geninfo）标识符。这意味着翻译产物蛋白质序列（不是简单附属于DNA记录，如同在GenBank记录中显示的），也有自己的gi号码。一个特定的标识符当且仅当序列更改时才更改。NID行是核苷酸序列的gi号码（geninfo identifier）前缀字母（d，e或g）表明是哪一个数据库生成了这个号码，或这一号码用于哪个数据库。因为NCBI首先使用了这个号码，所以DDBJ和EMBL用NCBI（GenBank）指定的号码来填充他们的数据库。简单地说，一个gi号码对应于一个核酸序列（蛋白质序列也有gi号码）。当序列改变时，gi号码也改变，但检索号码不变。在形式上，它只是简单的整数（所以有时被称为GI号）。它只是一些特定序列的辨识器。假定一个序列加入GenBank，给定序列号U00001。当该序列在NCBI所内部处理时，它加入所谓的ID数据库。ID确认以前从未见过U00001，就给它一个gi号54。当提交器通过改变出处修改记录时，U00001又加入ID。ID认出该记录出现过，恢复原先的U00001和新记录进行比较，如果完全相同，则给该记录gi号54；如果不相同，即使只有一对碱基不同，则给新gi号88。然而因为原数据库的意义，新序列仍保持序列号U00001。这时ID标识旧记录（gi54）的替换时间，并将它加入历史指示它被gi88的记录替代。ID也加入历史gi88指出它替代了gi54。序列号是对LOCUS/ID号的改进，但实际使用中，问题和不足是显然的。例如，当序列对于时间是稳定时，许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录，一旦记录被修改了（或者说从开始部分插入了1000bp）的时候，序列号不变（只是相同记录的升级版）。如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点，升级后一个完全不同的序列将在第100个位置上。所以，在GENEBANK中的LOCUS行就相当于DDBJ2或EMBL中的ID行，ID号是永恒不变的，而gi号码在序列改变时则会被指派新的gi号码，相应地其多肽段的gi号码也会相应地发生改变。）

本文来源：https://www.bwwdw.com/article/8siv.html

相关文章：

正在阅读：

NCBI简介及序列编号说明11-15

2016初三上学期期末语文专项之名著阅读 - 图文11-29

东财《金融企业会计》在线作业三套及答案02-26

美世资料-岗位评估方法 - 图文03-18

深圳市南华小学健康促进学校自评报告01-19

PCB感光油墨项目可行性研究报告 - 图文11-27

卓越绩效自评报告-2008年深圳市市长质量奖获奖单位04-10

烘箱操作规程06-02

小教本科教育心理专题形成性考核册答案05-13

《社会保障基金管理》习题集05-28

上一篇：关于加强农村社区文化建设的思考下一篇：浙江专用2018 - 2019学年高中物理第六章万有引力与航天4万有引力理论的成就学案新人教版必修22018110946