NCBI简介及序列编号说明
更新时间:2023-11-15 15:46:01 阅读量: 教育文库 文档下载
一:NCBI简介
NCBI的GenBank与DDBJ(DNA Data Bank of Japan)、EMBL的EBI数据库共同组成国际DNA数据库,每日都交换更新数据和信息,并主持两个国际年会-国际DNA数据库咨询会议和国际DNA数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。
GenBank 有来自于70,000多种生物的核苷酸序列。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。(是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据
库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。Entrez 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez 是由NCBI主持的一个数据库检索系统。它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。)
DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列。
EBI的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端科技成果向工业界的转化;⑸协调欧洲生物数据的提供。
RefSeq是NCBI数据库的参考序列。RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库,它的序列格式和GenBank几乎完全相同,但因为是完全不同的独立资料库,为与GenBank区别,RefSeq的Accession Number格式和GenBank不同。
二:常用序列编号
一般来说,mRNA和基因组序列是我们主要的寻找对象。如果想找标准序列的话,mRNA用NM_开头的,基因组用NC_或者AC_开头的。 1. mRNA
NM_表示标准序列, 为转录产物序列;成熟mRNA转录本序列。
XM_表示预测的蛋白编码序列;mRNA来自基因组注释,序列相当于基因组重叠群。大多数属于预测的。 NR_表示非编码的转录子序列,包括结构RNAs,假基因转子等。 2. 基因组
NC_完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。 AC_一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。
三:ACCESSION编号
ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI)。ACCESSION形式为CC_#####,其中CC为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;ACCESSION后面又会加版本号,以CC_####.#形式表示,最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。
1)AC_***:genomic mixed,一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物; 2)AP_***:protein mixed,AC_标记序列对应的蛋白产物;
3)NC_***:genomic mixed,完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒; 4)NG_***:genomic mixed,不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的
假基因或者哪些很难自行化注释的基因组簇;
5)NM_***:mRNA mixed,转录组产物序列;成熟mRNA转录本序列;
6)NP_***:protein mixed,蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨
基酸序列;
7)NR_***:RNA mixed,非编码的转录子序列,包括结构RNAs,假基因转子等; 8)NT_***:genomic automated,BAC或者鸟枪测序法的还未完全注释的测序序列; 9)NW_***:genomic automated,BAC或者鸟枪法测序的还未完全注释的测序序列;
10)NZ_ABCD1234***:genomic automated,收集的各种利用鸟枪法测序的测序计划,ABCD代表的是计划
名称;
11)XM_***:mRNA automated,转录产物;mRNA来自基因组注释,序列相当于基因组重叠群; 12)XP_***:protein automated,蛋白产物;序列相当于基因组重叠群;
13)XR:RNA automated,转录产物;非编码区来自基因组注释,序列相当于基因组重叠群; 14)YP_***:protein mixed,蛋白产物;不涉及到转录组,主要用来标记细菌、病毒和线粒体; 15)ZP_***:protein automated,蛋白产物;主要是用电脑自动注释; 16)NS_***:genomic automated,未知生物分子基因组序列。
在前面介绍了一些常见序列的accession号,其实在NCBI中还有很多accession号,仅与RNA相关的就有116种,这里各举一个例子供参考。不同的编码代号代表不同的意思,如NM_开头的表示标准序列,XM_表示预测的蛋白编码序列,NR_表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列。
四:GI编号:
GI编号是NCBI网站的所有序列相关数据库的流水编号,其最有用的特征就是唯一性。对于每一条递交给NCBI的序列,都会付给一个编号,而且这个编号对应的序列不可更改。这个编号对应这个唯一的一条序列,类似与我们用的身份证号。因此,利用GI在NCBI中查询时,你只要把数据库(蛋白质/核苷酸)选对,只要输入这个号码就可以把相应的序列调出来。
值得一提的是登录号(Accession Number)。每一个递交的序列,除了获得一个GI号,还会被赋予一个登录号。递交序列的作者利用登录号对序列进行修改和完善。每一次修改的序列会获得一个新的GI号,登录号不变,但会追加一个流水的版本号。
因此,GI号和带版本号的登录号都唯一定位到唯一条序列。
(LOCUS出现在GenBank中的LOCUS行以及DDBJ记录(EMBL的ID行)是GenBank中最初的辨识器。由于使用LOCUS(或ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。NCBI给每个记录赋予一个gi(geninfo)标识符。这意味着翻译产物蛋白质序列(不是简单附属于DNA记录,如同在GenBank记录中显示的),也有自己的gi号码。一个特定的标识符当且仅当序列更改时才更改。NID行是核苷酸序列的gi号码(geninfo identifier)前缀字母(d,e或g)表明是哪一个数据库生成了这个号码,或这一号码用于哪个数据库。因为NCBI首先使用了这个号码,所以DDBJ和EMBL用NCBI(GenBank)指定的号码来填充他们的数据库。简单地说,一个gi号码对应于一个核酸序列(蛋白质序列也有gi号码)。当序列改变时,gi号码也改变,但检索号码不变。在形式上,它只是简单的整数(所以有时被称为GI号)。它只是一些特定序列的辨识器。假定一个序列加入GenBank,给定序列号U00001。当该序列在NCBI所内部处理时,它加入所谓的ID数据库。ID确认以前从未见过U00001,就给它一个gi号54。当提交器通过改变出处修改记录时,U00001又加入ID。ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果完全相同,则给该记录gi号54;如果不相同,即使只有一对碱基不同,则给新gi号88。然而因为原数据库的意义,新序列仍保持序列号U00001。这时ID标识旧记录(gi54)的替换时间,并将它加入历史指示它被gi88的记录替代。ID也加入历史gi88指出它替代了gi54。序列号是对LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上。所以,在GENEBANK中的LOCUS行就相当于DDBJ2或EMBL中的ID行,ID号是永恒不变的,而gi号码在序列改变时则会被指派新的gi号码,相应地其多肽段的gi号码也会相应地发生改变。)
正在阅读:
NCBI简介及序列编号说明11-15
2016初三上学期期末语文专项之名著阅读 - 图文11-29
东财《金融企业会计》在线作业三套及答案02-26
美世资料-岗位评估方法 - 图文03-18
深圳市南华小学健康促进学校自评报告01-19
卓越绩效自评报告-2008年深圳市市长质量奖获奖单位04-10
烘箱操作规程06-02
小教本科 教育心理专题形成性考核册答案05-13
《社会保障基金管理》习题集05-28
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 序列
- 编号
- 说明
- 简介
- NCBI