真核基因组注释流程

更新时间:2023-08-29 03:07:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

nature上一篇关于真核基因组注释综述的中文翻译

真核基因组注释入门指南

doi:10.1038/nrg3174

Mark Yandell 和 Daniel Ence

Department of Human Genetics, Eccles Institute of Human Genetics, School of Medicine, University of

Utah, Salt Lake City, Utah 84112-5330, USA.

Correspondence to M.Y. e-mail:

摘要:基因组测序价格的下降给考虑进行基因组测定和注释的研究团体带来了显著的影响。基因组注释项目普遍变成由单个实验室实施的小规模事件。尽管注释一个真核基因组已经可由非专业人士完成,但仍较难。本文综述了基因组注释的概貌、相关软体并描述了一些最适用的方法。

引言:测序费用下降如此快以致单个实验室也能支付人类基因组的测定。 尽管测序变得容易了,许多因素却使基因组注释却变得更难:

首先,第二代测序平台的更短的原始读长意味着现在基因组组装很少获得接近果蝇和人类基因组那样用经典shotgun组装的结果。

第二,许多近来测定的基因组具有的独特性也带来了挑战,尤其是对基因的发掘。不同于第一代基因组项目依赖于大量已知的基因模型,今天的基因组常常缺乏前期研究。这导致难于训练、优化和设定基因预测等注释工具的参数。

第三个新挑战来自对升级和融合注释数据的需求。RNA水平数据(RNA-seq)为升级陈旧的注释数据集提供了显而易见的途径。而且,这一工作十分重要。然而,也不能直接保证可以改进原始的注释结果。另外,今天常常有多个团队用不同的注释过程去注释同一个基因组,众多信息整合获得一致注释是一个相对复杂的任务。

最后一点,基因组注释项目的团队大小发生了变化。不像以往,今天的基因组注释项目常是更小规模团队完成,相关研究者常缺乏生物信息学和计算生物学的专业知识。真核基因组注释不是一个简单的过程,需要一些基本的UNIX技能。但利用现在的工具软体,自己动手进行基因组项目注释十分可行。本文综述了基因组注释的概貌、相关工具并描述了一些最适用的方法。

概述:组装和注释

组装

成功注释任何基因组的第一步是决定组装是否已经达到要求。许多总结性统计用来描述基因组组装的完整性和连续性。最重要的是N50 。其他的统计参数有scaffold的平均gap大小和数目。大多数现有基因组是“标准的草图”组装,这意味着它们达到了递交至公共数据库的最低标准。然而,“高质量草图”组装是注释的更高目标,至少达到90%的完整性。

尽管没有绝对的标准,但是对注释而言,scaffold N50长度达到基因平均长度是一个合理的目标。原因十分简单:此时,基因中约有50%有望包括在单个scaffold;这些完整的基因与其它片段一同提供下游分析的素材。如图1所示,平均基因长度与基因组大小存在粗略的对应关系。因此,如果基因组大小已知,就可以粗略的获得基因大小从而获得注释所需的最小scaffold N50。CEGMA提供了估算组装的完整性和连续性的另外一种补充方式,该方式依靠所收集的真核单拷贝基因并确定每一个基因存在于单个scaffold中的百分比来检测组装效果。

获得高质量组装草图是大多数基因组项目都可以完成的目标。如果组装不完全或者scaffold的N50长度过短,我们建议补充进行shotgun测序。

nature上一篇关于真核基因组注释综述的中文翻译

注释

尽管基因组注释流程存在细节上的差异,它们的核心都是一致的。一般,基因组水平的基因结构注释分为两个明显的阶段。第一阶段,即计算阶段,表达序列标签(ESTs)、蛋白质等与基因组进行比对,从头预测或者依靠已知的知识进行基因预测。第二阶段,即注释阶段,已有的数据被集成进基因注释。因为这一过程十分复杂且涉及许多工具——组装计算所得(已知知识和证据)并使用数据生成基因组注释——一般意义上称之为注释流程。尽管Ensembl也对non-coding RNAs (ncRNAs)进行注释,现在的流程主要面向蛋白编码基因的注释。

第一步:运算阶段

Step one: the computation phase

识别重复序列(repeats identification )

专有名词"重复序列"稍微容易混淆为两类:低度重复序列和转座子 (LINEs、SINEs)。真核基因组富含重复区,例如人类基因组的47%由重复序列组成可能还是比重较低的。另外,重复的边界常被误判;常常相互镶嵌;常常仅出现片段-----完整的很少。总之,重复使注释变得复杂,且要用不同于基因识别的专用软体对其进行识别和注释。

重复序列保守性差,难于识別;因此准确的定位重复序列常要求事先构建所分析基因组的重复序列库。已有的识别软体有两类:基于同源性的工具和从头预测工具。需要特别注意,从头预测所得重复序列不仅有转座单元,可能还包括高度保守的蛋白编码基因,比如组蛋白和微管蛋白。因此我们必须仔细的对从头预测结果进行后期处理,排除蛋白编码基因。另外,结果中还可能包含一些新的重复家族。重复序列本身就很有研究价值,对其产生和进化的研究正在增多。因此重复序列的注释应该是每个基因组注释项目的一部分。

nature上一篇关于真核基因组注释综述的中文翻译

建好的重复序列库可与RepeatMasker等软体配合,使用BLAST和Crossmatch识别目标基因组内与已知重复序列同源的序列。术语 ‘masking' 简单地表示将被识别为重复的核苷酸转换为N或者小写的 a, t, g 和c --------后者称为 ‘soft masking'。此步示意后续的序列比对和基因预测软体相应区域是重复序列区。基因组未成功进行该处理可能是灾难性的。未被mask的重复序列可能引发大量徒劳无功的BLAST比对,误导基因的注释。更糟糕的后果是许多发生转座的开放阅读框 (ORFs)看来象真的基因,被作为基因的外显子,最终完全拖垮基因注释。因而,好的重复序列masking对于蛋白质编码基因的准确注释十分关键。

证据比对(Evidence alignment). 隐藏重复序列后,大多流程将已知的蛋白、EST和RNA-Seq数据与全基因组组装结果比对。其他物种的序列也可以引用,但一般局限于相对更保守的蛋白质序列。按规则,TBLASTX可用来自系统发育上相距较远物种的ESTs和RNA-seq数据进行比对,但是因为运算量过大而极少使用。 是蛋白质序列的核心资源库。由于SwissProt局限于高度挖掘的蛋白质,许多使用者可能想使用相关的蛋白质和之前注释的基因组数据进行补充。组合附加蛋白和EST数据集的一个简便方法是通过 NCBI taxonomy browser下载相关物种序列。

EST和蛋白质序列数据集常通过两个相互衔接的过程与基因组进行比对。最频繁使用的是BLAST和BLAT确定percent similarity或percent identity。过滤后余下的数据有时可聚合并识别重叠比对和预测。聚合有两个目标:第一,将分化的计算结果聚合成单个聚类的数据支持同一个基因; 第二,识别并简化多余的证据,例如高度表达基因可能获得成百上千一样的ESTs数据。

术语“修正(polishing)” 常被用于描述比对后的下一阶段。将证据聚类并简化后,将BLAST和BLAT识别出来的高度相似序列与基因组进行再次比对,以便获得外显子边界更为精细的结果。例如,BLAST尽管很快,但没有识别选择性剪接位点的模型,所以序列比对获得外显子-内含子边界仅仅是一个十分粗略的结果。因此,剪接位点识别比对算法

(splice-site-aware alignment algorithms),比如Splign、Spidey、sim4和Exonerate等常用来再次比对那些匹配且高度相似的ESTs、mRNAs、proteins到genomic序列。尽管这些程序运行需要很长的时间,但结果将大大改进选择性剪接和外显子边界的注释信息。

在各种形式的证据中,RNA-seq对于改进基因注释的准确性最有潜力。这类数据提供了丰富的证据优化外显子、剪接位点和选择性剪接外显子的界定。然而,RNA-seq数据量十分大且复杂,难于使用。现在,相关软件发展迅猛。RNA-seq原始序列(reads)的组装处理方式有两个:①重头组装——独立于基因组,使用、 和等软件组装,而后与基因组比对;②RNA-seq数据能直接与基因组进行比对,相关工具软件有TopHat、GSNAP或Scripture,接着再用Cufflinks等将比对序列组装成转录组。

对于如何使用RNA-seq数据最好,至今看法不一,其前景可能很大程度依赖于基因组生物学(比如:基因密度)和基因组组装的连续性和完整性。基因密度是一个重要的方面。如果基因十分密集,则Cufflinks等软件有时会错误地将相邻基因RNA-seq融合到一起。此时,从头组装可以解决这个问题——Trinity正是针对这个问题设计的软件。许多的注释流程融合了RNA-seq数据,例如: PASA使用尺蠖的输出数据;MAKER直接使用Cufflinks输出文件或者是RNA-seq组装前数据。

从头基因预测(Ab initio gene prediction). 一些软件常被称为从头基因预测软件(ab initio gene predictors)是因为它们基于数学模型而非外部证据(例如:EST和蛋白质序列比对)来识别基因并决定外显子-内含子结构。当基因预测软件在20世纪90年代首次出现时,它们给基因组分析带来了革命性改变,因为它们提供了一种快速简便的组装序列基因识别方式。

然而,这些工具的应用限制来自注释方面。例如,大多数的基因预测软件找到单一最可能编码序列coding sequence (CDS)而不列出不翻译的上下游序列(untranslated regions,UTRs) 或选择性剪接转录本。训练也是一个问题。从头基因预测软件使用物种特异基因组特征——例如密码子频率和内含子-外显子长度分布——区分间隔区域和基因并决定内含-外显子结构。而大多数软件的预设参数文件包含的信息多来自经典的基因组,例如线虫、果蝇、拟南芥、人类和小鼠。因此,如果所分析的基因组与这些模式物种差异很大,参数将

nature上一篇关于真核基因组注释综述的中文翻译

很难保证适合。因而,基因预测软件需要针对性训练,考虑相应的内含子长度、密码子使用偏好和GC含量等。

如果训练足够,基因水平的灵敏度可接近100%。然而,外显-内含子结构的预测准确率仅有大约60–70%。大量已有的的高质量基因模型和近乎完美的基因组组装对于高度准确的基因预测帮助很大。然而,新测定的基因组往往缺乏这些数据。

原则上,即使缺乏参考基因模型,ESTs、 RNA-seq和蛋白质序列与基因组的比对能用于训练基因预测软件。许多常用的基因预测软件能按这一方式训练,但一般要求使用者具备一定的编程能力。MAKER、和 等自训练(self-training)软件提供了不同的方式供选择,但是其算法起始准确率较低。

证据驱动的基因预测(Evidence-driven gene prediction). 近年来,从头预测和基因注释间的差异日益模糊。许多从头类软件,例如TwinScan、 FGENESH、 Augustus、 Gnomon、GAZE和 SNAP都能使用外部证据改进预测的准确性。例如,利用ESTs确定外显子界限。与从头预测相对,这个过程常被称为证据驱动(evidence-driven) 基因预测,该方式对改进新基因组数据的基因预测质量有巨大潜力,但实际的应用还较难。首先,ESTs、蛋白质序列、RNA-seq data 都必须进行比对;接着,剪接位点必须识别出来;其后,在将数据集成至基因预测软件前对组装证据进行后处理。实际操作时,这需要大量针对性软件,工作量很大,是基因组注释流程需要克服的主要障碍之一。

第二步:注释阶段

Step two: the annotation phase

注释的最终目标是获取从头预测和比对证据预测综合出来的基因注释集。传统上,这是手工完成的。例如,人类基因组注释者们检查每一个基因的背景资料从而决定内含子-外显子结构。尽管手工所得结果质量高,但工作量大。出于资金考虑,小基因组项目更依赖自动注释。

几乎各种注释流程都有自己的自动注释策略,共同的主线都是通过组合基因预测的前后过程,并使用证据改进基因模型的准确性。

自动注释(Automated annotation).自动注释最简单的形式是针对基因组数据运行一连串不同的基因查找软件,然后使用选择算法(chooser algorithm或combiner)选择某一预测,其内含子-外显子结构最能代表和综合各种预测结果,从而定义相应的预测基因位点。运用这类过程的软件 JIGSAW、 EVidenceModeler (EVM)和 GLEAN (以及后续软件 Evigan) 。通过估计每一个来源的基因证据误差的类型和频率, 进而选择误差最小的组合结果。像从头预测软件,JIGSAW必须针对每一个新测定的基因组做重新的训练,因而要求已知的基因模型资源。从头预测软体不使用这些资源优先进行训练。 EVM容许使用者人工设置期望的证据误差率或者通过训练获得这些。相反,GLEAN和Evigan使用无监督学习法评估链接误差模型。在最近的预测竞赛中,组合各种证据后的类型的软件都优于从头预测的模型, JIGSAW、 EVM 或 Evigan表现相近。

另一个流行的方法是将比对证据反馈给基因预测软件,即证据驱动预测,以改进预测过程的准确性。接着,选择器(chooser)将识别最有代表性的预测结果。通过综合 RNA-seq 和EST数据,这一预测还可以获得进一步的改进。此过程被 PASA、 Gnomon和MAKER所使用。通过提取后处理的与蛋白、EST和RNA-seq比对吻合的基因模型, 已知的证据还能用于确认上述软件选择器算法的选择确认。

那么,你将选择哪种方法?也许,考虑这个问题的最好方法是综合考虑工作量和准确性。即使是非常大的基因组,简单运行单一的从头预测软件只需要耗费中央处理器数小时。相对,如果要跑完MAKER或者PASA流程,则需要耗费数周,但它们的输出结果将提供注释挖掘和下游分析的起点,例如利用RNA-seq数据进行差异表达分析。另一个考虑的因素是对正研究的基因组与已经注释的基因组进行系统进化分析。如果是首次对该该目或者科进行注释,最好使用尽量多的外部证据,尤其是RNA-seq数据来确认基因注释结果。否则,结果质量将很难保证。

nature上一篇关于真核基因组注释综述的中文翻译

注释结果的可视化 Visualizing the annotation data

输出数据:使用全文本格式的重要性 (Output data: the importance of using a fully documented

format). 基因组注释流程的输出结果将包括每一个注释的转录本和蛋白质序列,它们基本都以FASTA格式列出。尽管FASTA文档很有用,但仅仅为后续分析提供小部分支持。通过基因组浏览器将注释进行可视化,构建基因组数据库都可以获得更多的描述性输出文档。最少,输出文档需要描述内含子-外显子结构、起始-终止密码子、UTRs和选择性转录本。最好这些输出文档进一步包括序列比对和支持每一个基因模型的基因预测结果。

四个常用的注释格式是: GenBank、GFF3 、 GTF 和 EMBL 。使用完整的文档格式十分重要,原因有三点:①可以写软件转换格式的麻烦;②常用格式尤其是 GenBank 和 GFF3使用可控的词汇和术语,保证分析软件可交叉操作;③如果用了不常用的词汇描述基因模型,比较基因组分析将十分困难、难以完成。因此,通用生物模型数据库 Generic Model Organism Database (GMOD) 项目协会采用GFF3格式开发了一系列标准和软件来描述、分析、可视化和发布基因组注释。

通用生物模型数据库(GMOD)项目是一个庞大的组织,提供一大套工具创建、管理和使用基因组注释结果,包括分析、可视化和发布数据。使用者通过GMOD软件可以浏览许多模式物种的基因组注释结果。另外,GMOD可以协助构建在线基因组数据库。关键是GFF3格式编辑的注释和协助证据可以被GMOD软件使用。通过GBROWSE和JBROWSE使用者可以直接查看这些文档,从而制作数据的视窗。另外,使用者还可以使用Apollo基因组浏览器和JBROWSE直接编辑基因模型。Bioperl也提供了一系列数据库软件加载GFF3文档到制作好的Chado数据库框架中。基于此,在线的基因组数据库能够快熟的建立起来。

质量控制

Quality control

不正确的注释结果将毒害使用它们的每一个实验。更糟糕的是,当其他不知情的研究者引用这些不正确的结果辅助注释它们的基因组时,这种错误将从一个物种扩散到另一个物种。基因组注释的标准操作已经在细菌、病毒和真核基因组水平提出,但是质量控制仍然是问题。既使是最好的基因预测软件和基因组注释流程都难以在外显子部分达到80%的准确率。这意味着,大多数基因注释包括至少一个错误注释的外显子。考虑到这一事实,对基因组注释准确率的评估十分重要。

这些年来,以估计基因预测准确性进行的各种挑战赛是一股重要的推动力量。然而,鲜有软件考虑基因组水平的注释。问题的核心在于缺乏已被准确预测的基因组参考系。第一代的基因组项目——拟南芥、线虫、果蝇——都基于几十年的工作基础,基因预测软件和注释流程基础都很牢固。现在大多数基因组项目不具备这种条件。 而且,某一个基因预测软件对某一个基因组表现良好还难以保证在另一个基因组也表现好。缺乏参考基因组注释的情况下,估计注释质量十分困难。实验确认是一个解决方案,但很少有项目进行大规模的验证。

注释质量的评估方法(Approaches for assessing annotation quality). 获得初略的注释质量指标的简单方法是获得已知domain的编码蛋白的注释百分比。InterProScan和Pfam的MAKER都可进行自动分析。尽管domain的相对数目随物种和基因家族有所差别,编码domain的蛋白整体百分比基本稳定。人类、果蝇、线虫、拟南芥和啤酒酵母等真核基因组的domain含量介于 57% ~75%。未经训练的基因识别软件无法很好识别—— 常仅5%~ 25% 。因此,当真核蛋白组的domain百分比较低,警示注释质量差。

nature上一篇关于真核基因组注释综述的中文翻译

但domain百分比仅可以初略估计整体注释质量,当要判断某一给定基因注释的准确性是就无能为力了。此时,一种办法是探讨蛋白、EST和RNA-seq证据是否支持注释的基因结构。当使用肉眼评估,这种操作相对直接;若要自动化,则需要计算的客观判断标准。为了解答这一问题,序列本体项目(Sequence Ontology Project) 开发了许多标准用于基因组注释的质量控制。例如,注释编辑距离(Annotation edit distance,AED)测定每个注释与重叠证据的一致性,从而可以识别有问题的自动注释作为手工修正的优先考虑对象。AED的打分还可以用于测定注释循环间的变化。 MAKER2 的基因组注释流程中提供了自动计算AED的工具软件。

当然,识别不准确注释才解决了一半的问题,错误还需要校正。最直接的方法是手工编辑内含子-外显子协调性。Apollo、Argo 和 Artemis等浏览器都可以进行这一校正。基因模型以图形化的拖拽方式和鼠标点击进行修改,编辑的结构在后台被备份到文档或者远程数据库。

注释团队(Annotation jamborees). 许多基因组注释项目选择手工复查和编辑注释数据集。尽管这一过程耗时耗力,但它提供了一个机会进行团体建设、教育和训练。

BLAST数据库服务器外加一个图形界面(graphical user interface,GUI),比如网页浏览器。WWW BLAST server package101提供了一种容易的方式。GBrowse和JBrowse也能方便的设置参数,从而允许远程使用者查看注释的基因组,与Apollo基因组类似,也能编辑不正确的注释。因为这些资源能建立并远程赋值,现在我们可以通过网络建立一个协作的注释团队。这种模式已经成功的运用于蚂蚁基因组社团。

发布基因组注释数据

Making data publicly available

成功的基因组注释项目不会以文章的发表而告终,还需要发布注释信息。基因组注释推动分子生物学和生物信息学的融合发展,为其他基因组注释提供了关键的资源。转录本和蛋白数据可能为其他基因组提供参考。发布注释基因组有3个基本的途径:在线发布,递交到GenBank和Ensembl,或者其他数据库。

递交到公共数据库(Submitting annotations to public databases). 除了GenBank,脊椎动物基因组的工作可以考虑Ensembl——每年约5–10个新物种。GenBank和Ensembl为较小的genome项目提供了许多方便,包括强大数据的集市,允许使用者浏览和下载数据。同时,Ensembl 和GenBank可自动完成有难度的工作,涉及基因模型,识别同源、直系或旁系同源。作为补充,中等大小的基因组项目自己建立了数据库进行管理和维护,例如 BeeBase , Gramene , PlantGDB, Phytozome 和 VectorBase 。

升级注释(Updating annotations). GLEAN 和 PASA 可用于报道基因组不同版本之间的差异。 Ensembl可以执行融合过程获得一致注释集。PASA 可以整合RNA-seq 数据对基因组注释进行升级。MAKER注释流程提供了自动处理的工具箱,可以修订、升级和融合现有的注释数据,并可映射到新的组装结果上。

GenBank 提供了两个途径对数据进行从新的发布和修订。Ensembl也同样提供了修订方式。

结论:某种方面,便宜的测序价格是基因组注释更加复杂。像我们所解释的,片段化的组装和许多现有测序项目的特质一定程度上导致了这种复杂性。基因组注释不再仅仅是识别蛋白编码基因,还包括转座子、调控区域、假基因和ncRNA的注释。注释质量控制和管理的瓶颈日益明显。只要软件和测序技术技术改进,注释的定期升级就是必然。正在进行的基因组注释项目必须面对这一实际,如同亲子关系,注释责任不会因为出生而终止。注释的错误和不完全都将毒害使用它们的实验。在当今这个基因组驱动的世界,提供准确且不断更新的注释是一个简单的必然。

本文来源:https://www.bwwdw.com/article/kgdi.html

Top