整合生物组学信息

更新时间:2023-07-20 21:25:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

高级生物化学:整合生物组学信息姓名:何明敏 学号:S150501008

目录 引言 1.组学数据整合的含义 2.组学数据间关系分析 2.1两组学数据间分析 2.2多组学间数据分析 2.3通用数据整合方法 2.4数据整合平台建设 3.展望

引言

随着实验技术的全面发展, 高通量的组学数据开始变得容易获取, 它们提供了细胞中几乎所有成员和相互作用的综合描述。 但是,由于当前实验技术手段的限制,高通量组学数据大多存在系 统偏差,数据类型和可靠程度也各不相同,这给组学数据的整合带 来了困难。 本文以转录组、蛋白质组和代谢组为重点,综述了近年来组学数据 整合方面的研究进展,包括新的数据整合方法和分析平台。

1.组学数据整合的含义 含义: 组学数据整合的含义指对来自不同组学的数据源进行归一化处理、 比较分析, 建立不同组间数据的关系,综合多组学数据对生物过程进 行全面的深入的阐释。

1.组学数据整合的含义 三个层次:

第一,对两个组学数据之间行比较分析,挖掘数据之间的相关性 和差异性; 第二,给定三个或多个组学数据,挖掘它们之间的内在关系; 第三,对于现存的所有组学数据,发展通用的数据整合方法和软件, 进行大规模的系统的数据整合。

2.组学数据间关系分析 系统生物学的基本工作流程的四个阶段① 对选定的某一生物系统的所有组分进行了解和确定,描绘出该系统的结构, 以此构造出一个初步的系统模型。 ② 系统地改变被研究对象的内部组成成分(如基因突变)或外部生长条件,然 后观测在这些情况下系统组分或结构所发生的相应变化。 ③ 通过实验得到的数据与根据模型预测的情况进行比较,并对初始模型进行修 订。 ④ 根据修正后的模型的预测或假设,设定和实施新的改变系统状态的实验,重 复第二步和第三步,不断地通过实验数据对模型进行修订和精练。

2.组学数据间关系分析 2.1两组学数据间分析 转录组和蛋白质组之间的比较分析:

传统的方法,采用Pearson 或者Spearman 相关系数。 缺点:由于数据本身的噪声掩盖了两组学数据之间的相关性。 改进:统计方法建立数据噪声模型,试图揭示两组学数据之间更多的相关关系。 通过发展不同的数据统计模型,降低内在噪声的影响,可以发现转录组和蛋白质 组之间更强的相关关系。

2.组学数据间关系分析 2.2多组学间数据分析 除了转录组和蛋白质组,用于研究机体对于外界环境、药物和毒物响应的代谢 组数据是生物组学数据的另一个重要来源。 整合蛋白质组和代谢组:给酶分配内在的功

能,寻找与酶相关的反应底物;在统 计学方法OPLS( orthogonal projection to latent structure) 的基础上整合 两组数据 改进:实际上,大部分酶和代谢产物之间具有复杂的调控关系。不一定具有相似 的变化趋势,所以,可能漏掉一些提示蛋白质与代谢物之间关联的重要信息。

2.组学数据间关系分析 2.3通用数据整合方法经典的数据整合方法包括数据交叉、数据合并 、无权重的 Fisher’s 方法以及MG和LS方法。实验中,真阳性的数据往往分布在P值的坐标轴起始点附近,因此,数据整 合方法通常设定阈值( 例如P= 0.05) 将整个P值空间分成两部分。在起始点附近, 真阳性的数据较为富集,被认为是显著的;否则被认为是不显著的。

2.组学数据间关系分析 2.3通用数据整合方法交叉方法:挑选在所有数据集中显著的元素,往往会漏掉在临界值附近的很多真 阳性数据。 合并方法:法选择在任意数据集中显著的元素,提高了阳性率却引入了大量的假 阳性数据。 Fisher’s 方法:采用更加综合的指标如双曲线决定阈值,挑选更多的阳性数据 并控制假阳性率水平。 MG和LS:倾向于挑选具有较低P值的数据。

注:当不同数据集中真阳性数据的P值不一致时,Fisher’s 方法最为有效; 否 则,MG和LS方法更加适用。

2.组学数据间关系分析 2.4数据整合平台建设数据整合的一个重要任务是整合多种数据源和工具,建立统一的数据访问和分析 的平台, 合理地处理数据集的多样性和复杂性。 早期的数据整合系统:Cytoscape和VisANT PathSys 图形化系统:采用更加综合的数据模型,如生物对象、分子状的属性 查询、相关的数据库对象链接以及网络水平的属性计算,方便了复杂生物过程 的分析和建模。 SBML ( systems biologymarkup language),即系统生物学标记语言:机器可 读的、基于XML 的置标语言,可以描述代谢网络、细胞信号通路、调节网络、 以及在系统生物学研究范畴中的其它系统,提供了多种数据和模型整合的基础。

2.组学数据间关系分析 2.4数据整合平台建设 工具的共同特点:从网络层次上简单的整合不同数据源,提供方便的数据浏览 和可视化,还很难从生物学水平上为生命活动的深入理解提供很大的帮助。只 有充分了解不同技术的特点、不同组学数据的含义和相互关系,数据整合工具 的开发才能为多组学数据的综合分析给予更的帮助。

3.展望 尽管系统生物学中数据整合已经得到了普遍重视并取得了一定进展, 多种问题的存在给不同组学数据的整合带来了很大的困难,使得现 有的组学数据还没有被充分解读。 总之,系统生物学中数据整合的发

展有待于实验科学、生物学、数 学和计算机科学的全面进步,在实验技术上提高产出数据的精度, 在生物上提供更多新的理论指导,在数学和计算机领域提出更加强 有力的分析方法,最终有效的整合多种组学数据,对生物系统进行 全面的解读。

参考文献

[ 1 ] Joyce A R, Palsson B O.The model organism as a system:integrating omics data sets[ J] . Nat Rev Mol Cell Bio, 2006, 7( 3) : 198-210. [ 2 ] 吴松锋, 朱云平,贺福初. 转录组与蛋白质组比较研究进展[ J] .生物化学与生物物理进展( Wu Song-Feng, Zhu Yun-Ping,He Fu-Chu. Progress in the comparison of transcript ome and proteome[ J] . Prog Biochem Biophys), 2005, 32(2) : 99-105. [ 3 ] 杨胜利.系统生物学研究进展,中国科学院院刊, 2004: 31-34.[ 4 ] Futcher B, Latter G.IMonardo P, et al . A sampling of the yeastproteome [ J] .Mol Cell Biol, 1999, 19( 11) : 7357- 7368. [ 5 ] 罗若愚, 李亦学. 系统生物学中建模方法的研究现状及展望[J]. 生命科学, 2007, 19(3):301-305. [ 6 ] Ideker T, Thorsson V, Ranish J A, et al . Integrated genomic and proteomic analyses of a systematically perturbed metabolic network [ J] .Science,2001,292 ( 5518) : 929-934. [ 7 ] 孙琰. 基于系统生物学的生命科学数据中心架构研究与资源建设[D]. 中国科学院上海生命科学研究院, 2008. [ 8 ] 刘伟, 朱云平, 贺福初. 系统生物学研究中不同组学数据的整合[J]. 中国生物化学与分子生物学报, 2007, 23(12):971-976. [ 9] 郝沛. 生命科学研究中生物信息学技术的开发和应用[D]. 复旦大学, 2008. [10] 林国栋. 模型方法--信息技术与生物学教学的整合点[J].生物学教学, 2004,29(3):26-27. [11] Kislinger T, Cox B, Kannan A, et al . Global survey of organ and organelle protein expression in mouse: combined proteomic and transcriptomic profiling [ J]. Cell, 2006, 125(1) : 173-186.

参考文献

[12] Saghatelian A, Cravatt B F。 Global strategies to integrate the proteome and metabolome[ J ]. Curr Opin Chem Biol, 2005, 9( 1) :62-68. [13] Rantalainen M, Cloarec O, Beckonert O , et al. Statistically integrated metabonomic-proteomic studies on a human prostate cancer xenograft model in mice[ J] . J Prot eome Res, 2006, 5( 10) : 2642-2655. [14] Ideker T, Thorsson V, Ranish JA, et al . Integrated genomic and proteomic analyses of a systematically perturbed metabolic network[ J] . Science, 2001, 292( 5518) : 929-934. [15] Birnbaum A. Combining independent tests of significance [ J] . J Am Stat Assoc, 1954, 49: 559-574. [16] Robert H, Berk Arthur Cohen. Asymptotically optimal methods of combining tests [ J] . J Am Stat Assoc, 1979, 74( 368) : 812-814. [17] Liptak T. On the combination of independent tests.Magyar Tud Akad Mat Kutato Int Kozl, 1958, 3: 171-197. [18] Hucka M, Finney A, Sauro HM, et al . The systems biology marku

p language ( SBML) : A medium for representation and exchange of biochemical network models [ J] . Bioinformatics, 2003, 19( 4) : 524-531. [ 19] Shannon P, Markiel A, Ozier O, et al . Cytoscape: A software environment for integrated models of biomolecular interaction networks[ J] . Genome Res, 2003, 13( 11) : 2498-2504. [ 20] Hu Z, Mellor J, Wu J, et al . VisANT: an online visualization and analysis tool for biological interaction data [ J]. BMC Bioinformatics,2004, 5: 17. [ 21] Baitaluk M, Qian X, Godbole S, et al . PathSys: integrating molecular interaction graphs for systems biology [ J ] . BMCBioinformatics, 2006, 7: 55.

Thanks

本文来源:https://www.bwwdw.com/article/4su1.html

Top