生物信息学数据库_日本DDBJ数据库及其检索应用(1)

更新时间:2023-05-28 00:46:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

情报杂志2003年第5期

情报检索

生物信息学数据库

日本DDBJ数据库及其检索应用

邢美园 苏开颜

(浙江大学文献信息技术研究中心 杭州 310031)

摘 要 介绍了世界三大核酸序列数据库之一的DDBJ数据库及其检索应用,内容涉及数据提交、数据分析及数据检索,如getentry、SRS、Sfgate&WAIS、TXSearch等四种软件的登录号检索、关键词及分类检索的特点、使用与技巧等。关键词 核酸序列数据库 DDBJ 生物信息学

在人类基因组计划的推动下,以生物信息的采集、处理、存储、传播、分析和解释等多个方面为研究内容的生物信息学也得到了很大发展。目前核酸和蛋白质的序列分析已经成为生物科学工作者的一个不可或缺的基本技能。在各种生物信息数据中,最为重要的还是DNA序列数据

[1]

址,输入电子邮件地址后数据库马上给用户提供一个记录号,用于标记将要提交的数据信息,接着用户需提供联系人的姓名及确切联系地址,这些信息填好后即生成一个有关前述信息的记录,用户可以马上上传数据内容也可日后追加(SAKURA页面的Re sume),数据内容包括参考信息、序列信息及生物体信息等。参考信息要求提供来信信息的出版状况包括准备中(InPreparation)、submittedforpublication(投寄中)、在版(Inpress)、已出版(Pub lished)、只在本数据库出版(PublishedonlyinDatabase)等选项)、刊名、年、卷、页码及作者姓名等内容。序列信息要求提供序列的长度、序列内容等,其中序列数据可直接复制或粘贴到该页面进行提交,但在数据量很大无法粘贴时也可通过Upload将装载有关数据的文件直接上载。生物体信息要求提供分子类型、生物体名称、细胞系、细胞类型、染色体等37项内容。该途径数据提交格式较规范,为DDBJ推荐使用的途径。

MSS:于下列3种情况下推荐使用:a.同时提交大量数据;b.提交序列较长,内容复杂如有大量特征信息的基因组数据的情况;c.不适于SAKURA提交。该途径要求在数据正式提交之前,通过mass@ddbj.nig.ac.jp与该机构工作人员取得联系,并附有信息提供数据提交日期、要求获得登录号的日期、公布日期及联系人信息(姓名、联系地址、Email等)。

Sequin:为一独立的数据处理软件,由NCBI开发,用于Gen Bank、EMBL、DDBJ序列数据的提交与更新。它能在MacintoshPC/Windows及UNIX系统的计算机上运行操作,有单机版和网络版之分,后者可多人合作使用。该软件可通过DDBJ的匿名FTP服务器下载(ftp://ddbj.nig.ac.jp/pub/Sequin)。

1.2 数据检索 数据检索包括getentry、SRS、Sfgate&WAIS、TXSearch、Homology等几种方式,前四者用于检索DDBJ数据库中的原始数据,Homology采用FASTA/BLAST检索对用户提供的序列或片断作同源性分析。DDBJ所提供的几种检索方法可分为登录号检索、关键词检索和分类检索,其中getentry就属于登录号检索,SRS和Sfgate&WAIS属于关键词检索,TXSearch属于分类检索。

1.2.1 Getentry:通过登录号来检索DDBJ核酸序列数据库,最多可同时输入10个号码进行检索,各号码之间用空格或 , 加以分隔,连续号码可用 - 表示多个连续的号码,举例如下:D11111D11112D11113D11114或D11111,D11112,D11113,D11114或D11111-D11114或D11111-4。

。当今世界上最权威最广泛的

核酸序列数据库主要有:欧洲生物信息学研究所维护的EMBL数据库[2],美国国家生物技术信息中心(NCBI)的GenBank数据库[3]和日本国立遗传学研究所(NIG)的DDBJ数据库(DNADataBankofJapan)[4](http://www.ddbj.nig.ac.jp)。这三大数据库虽然具有各自不同的数据记录格式,但是对于核酸序列均采用了相同的记录标准,同时每天都交换数据以达到数据的更新和一致。从地域而言,EMBL主要负责收集欧洲的数据,GenBank负责美洲,DDBJ则负责亚洲。但是由于国际互联网的发展,用户可以任意地向其中任意一个数据库提交序列,所提交的序列也将从公布之日起同时在该三大数据库中出现。1 DDBJ数据库及其特点

DDBJ数据库创建于1984年,由日本国立遗传学研究所遗传信息中心维护。截至2002年6月,共收录17260693条记录,20158357982个核苷序列。它首先反映日本所产生的DNA数据,同时与GenBank、EMBL合作,互通有无,同步更新,每年四版。该数据库格式与GenBank一致。

由于当前生物信息学研究成果如基因组序列、核酸序列、蛋白质序列等主要来源于国家或国际研究机构、公司及私人研究等,这些专业数据库的数据收集与传统文献检索数据库的数据收集(包括文献资源的收集、加工、整理等过程)相比存在较大差别,这些生物信息学专业数据主要由有关的研究机构、公司及个人主动发布而来,相应的专业数据库为其提供数据提交平台,并且把这些数据作一定的处理后加入到数据库中供全世界同行业人员无偿查询使用。因此,DDBJ数据库主页除了数据库检索(Datasearch)功能外,还有数据提交(Datasubmission)、数据分析(Dataanalysis)等功能。

1.1 数据提交 DDBJ的数据提交可通过SAKURA、MSS和Sequin三个途径。

SAKURA:数据提交可用日文或英文两种文字,用户可按软件提供的模板格式(startfromtemplate)提交数据,也可从Start进行标准格式提交。该途径首先要求用户提供联系人的Email地

情报检索

JournalofInformationNo.5,2003

Getentry(图1)在对DDBJ数据库进行检索时,输入的号码除了登录号以外还可以用Locusname、Genename、Productname、P_ID、Clonenumber和Patent号。通过专利号检索时,必须删去中间的空格,可省略其中的非字母数字式符号,如 _ 、 、 : 和 / ,举例如下:

JP1234567890-A1 JP1234567890-A1或JP1234567890A1(专利号) 或JP1234567890-A/1 (检索输入格式)

采用kinase[keywords]andhuman[organism]的组合方式来进行检索,结果共检得78

条相关记录。

检索结果可直接在页面得到显示,也可通过E-mail的形式获得,如图1所示。检索结果与其它数据库的兼容性好,可与Normal、FASTA、EMBL、Transl、CDS、Qvalue、XML

等数据库兼容。

图3 Standard检索界面

扩展检索允许用户通过定义多个字段来确定检索策略,这样能使检索结果更加精确,但是过多的修饰会造成检索结果过少甚至没有符合要求的结果。这种检索方式比较适合掌握较多的有关方面的资料或者通过前两种方法的检索发现检索结果过多的情况。

1.2.3 SFgate&WAIS:这是一种比较简单的关键词检索途径,在检索词输入框内输入检索策略,点击startsearch按钮即

图1 Getentry检索及结果显示页面

可完成检索。检索词中若有-/,.及*,需用 或 表示。如 H-ras , gamma1/gamma2 , Atbe-G*01 , Geoffroy s , Kawanishi,Y. 等。多个词之间可用逻辑符 AND 、 OR 、 NOT 表示逻辑与、和及非的关系。

1.2.4 TXSearch(TaxonomyRetrieval):这是一种根据生物分类学的分类名称作为关键词进行检索的检索途径。检索界面如图4所示,Taxonomicname右侧为检索词输入框,可在此处输入多达128个字母的检索词,并且可用 * 作为通配符。Classoftaxo nomicname右侧的下拉菜单可选择所检索词的命名种类,共有 scientificname 、 preferredcommonname 、 commonname 和 All 四种,前者为科学名称,后二者表示常用名称,可任选其一进行检索。Taxonomicrank用于选择该词的等级,包括 ALL 、 norank 等32个等级词。定义好每页的记录显示数及结果显示格式后,点击search按钮,得到初步检索结果(图5)。初步检索结果提供所检索词的详细信息,如其完整的家系名称、该词的其它名称、遗传密码等;同时还可点击 Gotolowertaxa 、 Getsequence(s)relatedtothistaxon 了解该词的下级分类词或获取该词的相关序

列信息。

1.2.2 SRS(SequenceRetrievalSystem):DDBJ版权所有的分子生物学数据库核酸序列检索系统。它共有快速检索(QuickSearch,图2)和高级检索(AdvancedSearch)两种检索途径。

图2 SRS快速检索界面

快速检索可同时选择多个数据库进行检索;并且它只对来自 ID 、 Molecule 、 Description 、 AccNumber 、 Keywords 、 Source 、 Organism 、 Authors 、 Title 及 Comment 等十个默认字段的信息进行检索,即如果用户所提交的检索策略中的词不在这些默认字段中而是在其它字段中时就无法被检索出来,需要通过高级检索才能解决。

快速检索可用逻辑符 OR |、 AND &和 ANDNOT !来连接描述多个检索词之间的逻辑关系,如gorilla!mitochondria,meningitidis&penicillin&antibiotics,lion|tiger等。为使检索结果更精确,包含多个单词的独立词组需要用 。并且在词的任何位置可以放置 * 和 ? , * 表示任意个字符内容, ? 表示单个字符内容,在快速检索状态下,系统会自动为词尾加上 * 进行扩展检索。

高级检索共有Standard(标准)检索和Extended(扩展)检索两种方式。标准检索可一次输入4个检索词(可选择来自不同的字段)进行组合检索(图3)。如检索人类激酶类的核酸序列数据,可

图4 TXSearch检索界面

情报杂志2003年第5期

多片段序列分析及系统树图的制作。

情报检索

DDBJ主页提供了多个有关生物信息学方面的其它相关数据库的链接,包括由NIG维护的CIB/DDBJHumanGenomicStudio、SQmatch、GIB、CAMUSdatabase、HCVdatabase等15个专业数据网站;同时还有与几十个日本国内及国外的常用生物信息学数据库链接,方便用户了解和使用。3 结语

DDBJ数据库是国际上最具权威的DNA序列数据库之一,其

图5 *coli初步检索结果页面

所发布的核酸序列信息在生物信息科学研究中起着相当重要的作用。它集数据收集、检索、分析功能于一体,为用户提供了多方位的服务,并且数据的检索方式灵活多样,可根据用户的层次差异和不同需求,提供由浅到深、由简到繁等多种检索途径。该数据库的检索方法较易掌握,但如何分析和利用所检得的数据结果需要较深的生物信息学专业知识背景。

如何为新形势下的用户提供诸如生物信息学等前沿学科的情报资料是一个日益迫切而又现实的问题,而作为图书情报工作人员,由于存在缺乏专业知识背景的障碍,在某些专业数据库的学习和深入过程有较大困难。作者认为图书情报工作人员应利用该数据库的数据和检索软件的特点,利用读者自身的专业知识背景,为读者提供生物信息学情报资料利用方面的咨询、指导工作。

参考文献

1 张成岗,贺福初编著.生物信息学方法与实践.北京:科学出版社,20022 http://www.ebi.ac.uk/embl/

3 http://www.ncbi.nlm.nih.gov/GenBank/GenBankSearch.html4 http://www.ddbj.nig.ac.jp/

(责编:勃王京)

1.2.5 检索结果的处理。DDBJ数据库四个检索系统所检索到的数据结果,系统都提供Link(链接)、Save(存储)、View(浏览)及Launch(序列分析)等处理方式。Link让用户选择有关的数据库,把检索结果进一步限制在DDBJ数据与所选择数据库有相关链接的范围内;Save用于存储所选定的检索记录,保存的记录格式有单纯记录名称(NameOnly)、完整记录(Completeentries)、序列简单浏览格式(SeqSimpleView,包括DDBJ序列登录号、描述项和序列长度等)及FastaSeqs(此格式可直接用于序列分析),所保存的文件类型有可直接浏览的文本/html文件、二进位格式等;View提供与保存记录格式相同的显示选择项,用户可通过标记所需记录,选择显示格式,点击View按钮在当前浏览器上直接阅读记录内容;Launch可直接递交检索到的序列内容(标记所需记录,点击Launch按钮即可),利用NclusterW软件对所递交的序列进行分析。

2 数据分析及相关链接

共有CLUSTALW及其DDBJ扩展版2种分析软件,能提供

(上接第58页)是由信息提供者(

著者)驱动,称著者驱动型CAR。

对于变动的历史,CAR具备两种功能:一种功能是记忆哪个文档已经被传送和提供给用户,这样,可以防止同样的信息不断地传送给用户,可以提示用户该信息之前已经浏览过,或提示用户之前浏览过的信息已经更改;另一个重要功能是能记忆用户当前环境中每个字段过去的价值,这样在下一次的检索操作中,这个信息能自动添加,或据此作出预测。

随着Context-aware计算技术的发展,信息的巨量增长,用户环境的多样化和不断变化,CAR也在进一步研究和发展中。

参考文献

1 (Germany)T.Mandl.TolerantInformationRetrievalwithBackpropagation

Networks.NeuralComputing&Applications,2000;(9)

2 宋 玲,马军等.基于神经网络的概念联想和概念聚类.情报学报,2002;

(2)

3 (UK)R.I.John,G.J.Mooney.FuzzyUserModelingforInformationRe

trievalontheWorldWideWeb.KnowledgeandInformationSystems,2001;(3)

4 聂勇军,刘风歧,陈火旺.Context是逻辑、机制还是方法学?模式识别和

人工智能,1996;(3)

5 (UK)P.J.Brown,G.J.F.Jones.Context-awareRetrieval:Exploringa

NewEnvironmentforInformationRetrievalandInformationFiltering.PersonalandUbiquitousComputing,2001;(5)

(责编:枰钧)

就是说,在系统与用户相互作用方面,可以由用户提出请求,去检索相关文档,也可以由系统将文档自动传送给用户。

多数用户进行信息检索时,对于使用布尔逻辑构造提问并不熟练,这影响了检索效果。而在用户驱动型CAR中,提问根据用户上下文自动产生,并不需由用户直接写出,提问式的语法并不十分重要,这就优化了检索效果。

著者驱动型CAR由文档引导提问,在与用户上下文相联系的文档中检索。这点类似于常见的信息过滤,能检索用户有潜在兴趣的文档,区别在于,信息过滤与用户相联系,用户有一串不同的目标文档,而CAR与文档相联系,检索目标是被视为文档的用户上下文,用户有一个不断变化的目标文档。

较理想的CAR应该是综合采用上述两种模式,而且两种模式之间应该很容易相互转换和结合。 3.4

CAR的优越之处 搜索引擎等一般的信息检索关心的

是文档的传送,而CAR关心的是信息本身的传送。CAR对每个匹配给予一个分值,这个匹配分值非常重要,它除了显示一个文档匹配提问的程度,即文档有用程度之外,还能用于决定是否要传送文档。如果最好的匹配文档都只有相当低的匹配分值,CAR会认为用它来迷惑用户是不够明智的,因此会决定不传送任何文档。

CAR与变化及其变动历史相关,这也优于一般的信息检索。

本文来源:https://www.bwwdw.com/article/exa4.html

Top