NCBI简介及序列编号说明

更新时间:2023-11-15 15:46:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一:NCBI简介

NCBI的GenBank与DDBJ(DNA Data Bank of Japan)、EMBL的EBI数据库共同组成国际DNA数据库,每日都交换更新数据和信息,并主持两个国际年会-国际DNA数据库咨询会议和国际DNA数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。

GenBank 有来自于70,000多种生物的核苷酸序列。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。(是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据

库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。Entrez 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez 是由NCBI主持的一个数据库检索系统。它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。)

DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列。

EBI的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端科技成果向工业界的转化;⑸协调欧洲生物数据的提供。

RefSeq是NCBI数据库的参考序列。RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库,它的序列格式和GenBank几乎完全相同,但因为是完全不同的独立资料库,为与GenBank区别,RefSeq的Accession Number格式和GenBank不同。

二:常用序列编号

一般来说,mRNA和基因组序列是我们主要的寻找对象。如果想找标准序列的话,mRNA用NM_开头的,基因组用NC_或者AC_开头的。 1. mRNA

NM_表示标准序列, 为转录产物序列;成熟mRNA转录本序列。

XM_表示预测的蛋白编码序列;mRNA来自基因组注释,序列相当于基因组重叠群。大多数属于预测的。 NR_表示非编码的转录子序列,包括结构RNAs,假基因转子等。 2. 基因组

NC_完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。 AC_一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。

三:ACCESSION编号

ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI)。ACCESSION形式为CC_#####,其中CC为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;ACCESSION后面又会加版本号,以CC_####.#形式表示,最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。

1)AC_***:genomic mixed,一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物; 2)AP_***:protein mixed,AC_标记序列对应的蛋白产物;

3)NC_***:genomic mixed,完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒; 4)NG_***:genomic mixed,不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的

假基因或者哪些很难自行化注释的基因组簇;

5)NM_***:mRNA mixed,转录组产物序列;成熟mRNA转录本序列;

6)NP_***:protein mixed,蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨

基酸序列;

7)NR_***:RNA mixed,非编码的转录子序列,包括结构RNAs,假基因转子等; 8)NT_***:genomic automated,BAC或者鸟枪测序法的还未完全注释的测序序列; 9)NW_***:genomic automated,BAC或者鸟枪法测序的还未完全注释的测序序列;

10)NZ_ABCD1234***:genomic automated,收集的各种利用鸟枪法测序的测序计划,ABCD代表的是计划

名称;

11)XM_***:mRNA automated,转录产物;mRNA来自基因组注释,序列相当于基因组重叠群; 12)XP_***:protein automated,蛋白产物;序列相当于基因组重叠群;

13)XR:RNA automated,转录产物;非编码区来自基因组注释,序列相当于基因组重叠群; 14)YP_***:protein mixed,蛋白产物;不涉及到转录组,主要用来标记细菌、病毒和线粒体; 15)ZP_***:protein automated,蛋白产物;主要是用电脑自动注释; 16)NS_***:genomic automated,未知生物分子基因组序列。

在前面介绍了一些常见序列的accession号,其实在NCBI中还有很多accession号,仅与RNA相关的就有116种,这里各举一个例子供参考。不同的编码代号代表不同的意思,如NM_开头的表示标准序列,XM_表示预测的蛋白编码序列,NR_表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列。

四:GI编号:

GI编号是NCBI网站的所有序列相关数据库的流水编号,其最有用的特征就是唯一性。对于每一条递交给NCBI的序列,都会付给一个编号,而且这个编号对应的序列不可更改。这个编号对应这个唯一的一条序列,类似与我们用的身份证号。因此,利用GI在NCBI中查询时,你只要把数据库(蛋白质/核苷酸)选对,只要输入这个号码就可以把相应的序列调出来。

值得一提的是登录号(Accession Number)。每一个递交的序列,除了获得一个GI号,还会被赋予一个登录号。递交序列的作者利用登录号对序列进行修改和完善。每一次修改的序列会获得一个新的GI号,登录号不变,但会追加一个流水的版本号。

因此,GI号和带版本号的登录号都唯一定位到唯一条序列。

(LOCUS出现在GenBank中的LOCUS行以及DDBJ记录(EMBL的ID行)是GenBank中最初的辨识器。由于使用LOCUS(或ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。NCBI给每个记录赋予一个gi(geninfo)标识符。这意味着翻译产物蛋白质序列(不是简单附属于DNA记录,如同在GenBank记录中显示的),也有自己的gi号码。一个特定的标识符当且仅当序列更改时才更改。NID行是核苷酸序列的gi号码(geninfo identifier)前缀字母(d,e或g)表明是哪一个数据库生成了这个号码,或这一号码用于哪个数据库。因为NCBI首先使用了这个号码,所以DDBJ和EMBL用NCBI(GenBank)指定的号码来填充他们的数据库。简单地说,一个gi号码对应于一个核酸序列(蛋白质序列也有gi号码)。当序列改变时,gi号码也改变,但检索号码不变。在形式上,它只是简单的整数(所以有时被称为GI号)。它只是一些特定序列的辨识器。假定一个序列加入GenBank,给定序列号U00001。当该序列在NCBI所内部处理时,它加入所谓的ID数据库。ID确认以前从未见过U00001,就给它一个gi号54。当提交器通过改变出处修改记录时,U00001又加入ID。ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果完全相同,则给该记录gi号54;如果不相同,即使只有一对碱基不同,则给新gi号88。然而因为原数据库的意义,新序列仍保持序列号U00001。这时ID标识旧记录(gi54)的替换时间,并将它加入历史指示它被gi88的记录替代。ID也加入历史gi88指出它替代了gi54。序列号是对LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上。所以,在GENEBANK中的LOCUS行就相当于DDBJ2或EMBL中的ID行,ID号是永恒不变的,而gi号码在序列改变时则会被指派新的gi号码,相应地其多肽段的gi号码也会相应地发生改变。)

本文来源:https://www.bwwdw.com/article/8siv.html

Top