RNA-Seq测序数据分析服务流程(试运行)(精)

更新时间:2023-11-08 23:11:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

北京大学生科院/CLS生物信息平台 RNA-Seq测序数据分析服务流程 (试运行 2015.3

平台联系人:李程(lch3000@gmail.com 文档撰写:张超 Table of Contents 1. 测序质量评估 (3 1.1 测序数据过滤 (3 1.2 质量值分布 (3 1.3 GC含量分布 (4 2. 参考序列比对 (4 3. 基因表达水平 (6 3.1 基因表达水平定量 (6 3.2 基因表达水平分步 (6 3.3 生物学重复相关性分析 (6 3.4 样本间层次聚类及PCA分析 (7 4. 差异基因分析 (7 4.1 基因表达标准化 (7

4.2 差异基因列表 (8 4.3 差异基因可视化 (8 4.4 差异基因聚类 (9 5. 差异表达基因功能分析 (10 5.1 GO富集分析 (10 5.2 信号通路富集分析 (10 5.3 癌基因功能注释 (11 6.基因结构差异分析 (11 6.1 可变剪切分析 (11 7. SNP分析 (12 7.1 SNP检测 (12 7.2 SNP 筛选 (12 7.3 GO/KEGG富集 (12 1. 测序质量评估

通过测序的数据进行进行质控,保证数据质量适合下游分析。这里我们使用fastqc和RNA-SeQC来对数据进行质量评定。

1.1 测序数据过滤

测序得到的原始下机数据往往有许多问题,不能直接使用,通常会经过以下过滤,尽量保证测序数据的质量。

a.去除带测序接头的测序序列(reads; b.去除低质量的reads 1.2 质量值分布

按照现有的测序技术(illumina平台单碱基的错误率应控制在1%以下,即质量值在20以上。

横坐标为reads的碱基位置,纵坐标为单碱基质量值 质量值与错误率的关系:Q

=-10log10(e;其中Q phred为测序碱基质量值,e为测 phred 序错误率。

1.3 GC含量分布

对于RNA测序,鉴于序列通过超声随机打断,所以理论上每个测序循环上的C、G及A、T含量应分布相等,并且CG-content对于每个物种应大致相同。

横坐标为reads的碱基位置,纵坐标为各种碱基的不同比例 2. 参考序列比对

对于通过质量控制的数据,可以进行后续分析。首先需要将clean reads比对到参考基因组上。由于测序时reads是随机的,只有这些reads的碱基信息和质量信息,没有其在基因组上的位置信息,比对这一步就是给所有reads一个在基因组上位置的信息。

在RNA测序中,其实测的是cDNA的序列,由于内含子的存在,所以会较常出现一条read跨内含子的情况,tophat2可以较好的处理这种情况,所以我们选用tophat2来做比对。

比对率间接反应了测序的质量和建库的质量,若比对率低,很可能建库时混入了其他物种的序列,导致无法比对到研究的物种参考基因组上。

reads比对到基因上的位置统计: Sample Intragenic Rate Exonic Rate Intronic Rate Intergenic Rate

本文来源:https://www.bwwdw.com/article/rkyv.html

Top