RNA-Seq数据质控(RSeQC)

更新时间:2023-09-15 20:22:01 阅读量: 高中教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

RNA-Seq质控(RSeQC)

RNA-seq提供了有关基因组中所有转录元件的有价值的信息,已经被广泛地用于转录组研究。使用RNA-seq,研究者能够描述基因表达谱,研究选择性剪接、鉴定新的转录本,检测异常转录本及编码变异等。质量控制(Quality Control,QC)对于保证RNA-seq高质量且适合随后分析是至关重要的。我们使用RSeQC程序包全面地评估RNA-seq结果质量,例如序列质量、GC偏倚、PCR偏倚、核苷酸组成偏倚、序列深度、链特异性、覆盖均一性,和基因组结构上的片段分布等,以确保后续分析的可靠性。

基于原始测序数据的质控(例如FastQC)不足以保证RNA-seq数据的可用性。

测序深度必须饱和,以便执行许多RNA-seq应用,例如表达谱,选择性剪接分析,新亚型(isoform)鉴定,转录组重建等。非饱和测序深度给出不准确的评估(例如RPKM和剪接索引),不能检测低丰度剪接联结点(splice junctions),因此限制了 许多分析的准确性。

有许多工具,例如FastQC(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)、htSeqTools,FASTX-ToolKit(http://hannonlab.cshl.edu/fastx_toolkit)和SAMStat,但是都集中于原始序列相关的度量。RNA-SeQC缺乏许多重要的功能,例如饱和性检查。 RSeQC被开发以解决这些需求。

基本模块快速检查:序列质量、核苷酸组成偏倚、PCR偏倚和GC偏倚。 RNA-seq特异模块:

1)bat_stat.py 比对片段检查(QC失败、unique mapped、splice mapped、mapped到合适对的reads等)

2)inner_distance.py 配对reads间的内部距离分布,应该与割胶大小匹配。 3)geneBody.coverage.py

将所有转录本缩放到100 nt,并计算每个核苷酸覆盖的reads数,最后计算

出一个沿gene body的覆盖谱。

4)read_distribution.py 计算比对到编码exons、5’UTR exons、3’UTR exons、introns和intergenic区的read比例。例如对于polyA+ RNA-seq的实验方案,reads倾向于在3’UTR过代表。

5)RPKM_saturation.py 通过对总的比对reads重采样(jackknifing),评估在当前测序深度下的RPKMs。

使用相对错误率来测量评估的RPKM的准确性(100x|RPKMobs-RPKMreal|/RPKMreal)

6) junction_saturation.py

判断当前测序深度是否足够用来执行选择性剪接分析。

7)infer_experiment.py 通过对BAM文件进行采样,判断测序是否是链特异的,若是的话,是怎么分布的。

8)junction_annotation.py 将所有检测到的splice junction分为known, complete novel和partial novel(与ref genome相比)。

9) RPKM_count.py计算原始reads计数和RPKM值(每个exon、intron及mRNA区) 10)bam2wig.py 将BAM文件转成wiggle文件以可视化。Wiggle能容易地转成bigwig(用UCSC的wigToBigWig工具)

下载:

http://code.google.com/p/rseqc/

本文来源:https://www.bwwdw.com/article/efth.html

Top