16s代谢组及临床信息关联分析方案

更新时间:2024-07-04 23:45:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

肠道菌群16s 宏基因组及代谢组关联分析方案

一、项目简介

1.1 多组学关联分析概述

对多组学进行关联分析主要包括跨组学相关性分析以及基于机器学习算法的组合型生物标志物发现和多组学数据的深度挖掘。其中,对于跨组学相关性分析目前主要由 4 部分组成,分别是:

(1)基于参考文献和数据库的关联分析; (2)基于代谢通路分析的关联分析; (3)基于交互作用的关联分析; (4)基于统计方法的关联分析。

在基于统计方法的关联分析中,不仅包含了基于相关性的整合分析,如皮尔森相关性分析(Pearson Correlation)、斯皮尔曼秩相关性分析 (Spearman Rank Correlation) 等,而且还有基于数据拼接的整合分析、基于多变量的整合分析(如典型的 O2PLS 分析)和基于代谢通路(pathway)的整合分析。

图 1. 多组学关联分析示意图

1.2肠道菌群 16s rRNA 测序

核糖体是细菌唯一的细胞器,是蛋白质合成的场所,它的沉降系数是 70s,在适当条件 下解离成 50s 和 30s 两个大小亚基,两个亚基都含有 RNA 和蛋白质。rRNA 按沉降系数分 3种,分别为 5s,16s 和 23s。

5s 和 23s rRNA 基因在 50s 亚基中,16s rRNA 在 30s 亚基中,它们是核糖体不可缺少的成分。16s rRNA 基因是细菌染色体上编码 rRNA 相对应的 DNA 序列,存在于所有细菌的染色体基因组中。16s rRNA 基因约由 1540 个核苷酸组成,并含有多个拷贝(即转录单位),如大肠杆菌 K12 染色体基因组中含 7 个 16s rRNA 拷贝,而在一般情况下,细菌的其他结构基因都是单拷贝的。细菌 16s rRNA 基因序列由保守区和可变区组成,两者互相交错排列。编码 rRNA 基因与细菌整个基因组的变化相比,有高度的保守性。

由于 16s rRNA 基因核苷酸序列总长度适宜,结构完整,更便于对细菌进行各种研究。 设计一对引物,以16s rRNA为靶分子在适当条件下进行PCR扩增,便得到扩增后的16s rRNA 片段,对片段进行测序,序列与基因库中的片段比对,便得知未知菌与基因库中其他菌的相 似性,从而完成对菌的鉴定。

1.3代谢组(metabolome)

代谢组(metabolome)是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢 过程中充当底物和产物的小分子物质,如脂质、糖、氨基酸等,可以揭示取样时该细胞的生 理状态。人体由上万亿个不同类型的细胞组成,它们具有潜在不同的组织细胞代谢组。基因 和蛋白质主要是为细胞发生的活动做准备,在活动中大部分实际上是发生在代谢物上,如信 号转导、能量转移、细胞间通信都受代谢物调控。从整体上看,基因和蛋白表达紧密相连, 但代谢物的实时变化更密切地反映出细胞所处的环境,该环境依赖于细胞所摄取的营养状况、

所接触的药物和污染物以及其它影响细胞健康的外在因子情况。总之,转录组学告诉人们细胞中可能发生的变化行为,蛋白质组学告诉人们细胞中正在发生的变化行为,而代谢组学是研究生物样品,尤其是尿液、唾液和血液中的代谢物谱(主要是指含有哪些代谢物、丰度和分布状况等)变化规律,告诉人们细胞中行为发生以后的状况。

1.4样本信息

xx粪便样品,分疾病组和对照组,分别测得16s rRNA宏基因组和代谢组的数据,以及客户提供的各种临床指标的数据,现针对16s rRNA、代谢组以及临床指标数据进行关联分析。

物种名称:小鼠

数据来源:16s rRNA宏基因组,代谢组,临床指标

1.5 分析内容

数据分析包括:相关性分析,Scatter plot 分析,代谢物来源及其相关性分析,临床 指标 PERMANOVA 分析,宏基因(宏转录/蛋白)及代谢物互作网络构建。

二、数据分析方案 2.1 相关性分析

通过使用 pearson 或者 spearman 相关性分析方法,将经过 16S rRNA 宏基因组学分析得到的差异显著性菌群数据与代谢组学分析得到的差异显著性代谢物数据进行关联分析,其中颜色越红表示菌群与代谢物间的正相关性越强,颜色越蓝表示菌群与代谢物间的负相关性越强,相关性 P 值小于 0.05 的数据在图形中用\标记,示例结果如下(具体颜色等可根据实际情况进行调节):

图 2. 相关性分析热力图

2.2 Scatter plot 分析

为了进一步验证相关性系数分析得到的相关性的真实性,需要对菌群和代谢物进行散点 图分析,从而帮助去除假阳性的强相关作用,示例结果如下:

图 3. 菌群与代谢物相关性分析 scatter plot

2.3 代谢物来源及其相关性分析

通过对代谢物进行来源性分析,主要分成三类:肠道菌群来源性代谢物,人与肠道菌群 共同来源性代谢物、人体自身代谢物。对代谢物进行斯皮尔曼等级相关性分析,选取具有显

著性相关作用的代谢物进行相关性展示。其中,红色原点是在疾病组中富集的差异显著性代 谢物,绿色方块是在疾病组中降低的差异显著性代谢物,标记了红色外框的代谢物是研究中 发现的潜在生物标记物。此外,根据斯皮尔曼等级相关性系数大小进行不同代谢物-代谢物 间的相关性连接,在该图中,红色线条表示 rho≥0.9,粉色线条表示 0.9>rho≥0.8,黄色线条表示 0.8>rho≥0.7,蓝色线条表示 0.7>rho≥0.6,海蓝色线条表示 0.6>rho≥0.5,灰色线条表示 rho≤-0.5。(备注:对于菌群-菌群,菌群-代谢物都可以使用多种类似的相关性网络图展示相关性结果)

4. 代谢物来源及其相关性分析图

2.4 临床指标 PERMANOVA 分析

PERMANOVA 分析表明临床指标的变化(红色标记,p-value<0.05)显著性地改变人体的 肠道菌群和代谢物轮廓谱。其中 groups 的 p-value<0.05 表明分组的合理性。

表 1. 临床指标 PERMANOVA 分析结果

2.5 宏基因(宏转录/蛋白)及代谢物互作网络构建

我们将差异基因与差异蛋白同时通过 metscape,metmapR 等构建调控网络,该网络基于数据库、实验、文献等已有知识构建,可能能够帮助挖掘出未知的功能代谢通路,阐述新的调控机理。

图 5. 差异显著的 16s 宏基因/宏转录本/蛋白与差异显著的代谢物调控网络构建

本文来源:https://www.bwwdw.com/article/llq.html

Top