1RNA-seq质量控制

更新时间:2023-12-02 00:37:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

RNA-seq 质量控制

1 建库流程

1.1 Total RNA样品检测

1.1.1 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染

一句话总结:琼脂检测主要观察28s和18s。判断RNA好坏的标准是28s,18s是否清晰,尤其是28S亮度比18s亮度大

28s,主要是剪切前的前体RNA,主要包括不均一核RNA(未剪切成熟的mRNA前体)和主要是28s,18s,5s的前体转录子。前体存在于细胞核(然后加工剪切成28s,18s,5s和成熟的小片段的mRNA。这些成熟的RNA进入到胞浆。有功能的mRNA是存在于胞浆中的成熟的mRNA,前体mRNA是没有翻译功能的(蛋白质翻译机器,核单倍体是位于胞浆中的)。真正成熟的mRNA,主要集中在28s和18s之间的荧光背景(一般每条基因mRNA量很少,所以,整体一般看不到明显带).如果28s只是比18s稍高,或者亮度差不多,即使条带清晰,也已经提示部分降解了。大片段开始降解,从28s降解到18s最后降解到5s。这样降解过程中,28s减少,18s增多,28s:18s比例就会下降。如果最容易降解的28s都没有降解,(从比例推断),那么更难降解的mRNA,就推理出肯定是完好的了。 泳道:

1 2 3 4 5 6 7 8 9

这张图片就是一个离心柱子提取RNA的不同降解情况的典型例子。

泳道1,5,6,7,8,9 部分降解了,所以28s是首先降解,28s条带变淡,而部分降解首先是降解成较小的18s左右的片段,所以18s条带明显变粗,造成28s:18s的比例竟然小于1了。然后在不该看到条带或者应该是很弱的5s位置,出现了较明显的5s大小的降解带。

3,4是完全降解了,28s,18s已经基本降解光了。两条带都看不见了。最后降解成的小片段正好和5s大小一致,所以在5s位置看到了大量的一条浓浓的降解小片段,和5s一样大小。

2就是完全正常提取的RNA,大家可以看到28s:18s比例大约是2:1,5s位置也基本见不到带。这就说明完全正常,无降解。

(2) Nanodrop检测RNA的纯度(OD260/280比值)

一句话总结:260/280 大约在 2.0 而260/230 ration 在 2.0-2.2.

OD260代表核酸的吸光度,OD280代表蛋白质的吸光度。280、320、230、260nm下的吸光度分别代表了核酸、背景(溶液浑浊度)、盐浓度和蛋白等有机物的值。A230 测定其它碳源物质,如酚,糖类等;A260 是核酸的吸收峰测 RNA 和 DNA,引物等的浓度用的;A280 是蛋白质的吸收峰。

一般的,我们只看 OD260/OD280(Ratio,R)——1.8~2.0时,我们认为 RNA中蛋白或者时其他有机物的污染是可以容忍的,不过要注意,当用 Tris 作为缓冲液检测吸光度时,R 值可能会大于 2(一般应

该是<2.2的)。当 R<1.8时,溶液中蛋白或者其他有机物的污染比较明显,你可以根据自己的需要决定这份RNA 的命运。当 R>2.2时,说明 RNA 已经水解成单核酸了。 纯RNA 的A260/A280的比值为 2.0。 OD260/OD230的比值还表明 RNA 的纯度——其值 <2.0 表明裂解液中有亚硫氰胍和β-巰基乙醇残留,其值 >2.4,需用乙酸盐,乙醇沉淀 RNA。

(3) Qubit对RNA浓度进行精确定量

一句话总结:RNA-seq测序需要至少300 ng 总RNA

(4) Agilent 2100精确检测RNA的完整性

一句话总结:2100 RIN值高好,样品间RIN值相差1-1.5最好。

Agilent 2100对文库的insert size进行检测,RIN值反应的是样品的降解。RIN=RNA integrity number,即 RNA 分子完整数,从 0-10,直接反应了 RNA 质量的好坏,此数值越大表明 RNA 质量越好越完整。

1.2 建库流程

1.2.1 ssRNA-seq 建库(针对长非编码RNA分析)

RNA检测合格后,通过epicentre Ribo-ZeroTM试剂盒去除rRNA(可以拿到非polyA的转录本)随后加入fragmentation buffer将RNA打断成150-200bp短片段150-200bp,以短片段RNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNA polymerase I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择。之后用USER酶降解含有U的cDNA第二链,最后进行PCR富集得到链特异性cDNA文库。

图:lncRNA建库 1.2.2 小RNA建库

样品检测合格后,使用 Small RNA Sample Pre Kit 构建文库,利用 Small RNA 的 3’ 及 5’ 端特殊结构( 5’ 端有完整的磷酸基团, 3’ 端有羟基),以 total RNA 为起始样品,直接将 Small RNA 两端加上接头,然后反转录合成 cDNA 。随后经过 PCR 扩增, PAGE 胶电泳分离目标 DNA 片段,切胶回收得到的即为 cDNA 文库。

1.2.3 普通转录组建库

样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase

I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。构建原理图如下:

图RNA-seq建库 1.2.4 Chip-seq建库流程

染色体免疫共沉淀(ChIP)是一种用于研究蛋白质与 DNA 的体内相互作用的经典实验技术。采用特异性抗体将目的蛋白进行免疫沉淀,由此可以把目的蛋白所结合的基因组 DNA 片段也富集下来。 方法1 :Cross-liking Chromatin Immunoprecipitation (X-ChIP)

甲醛处理细胞,使 DNA-protein 的相互结合作用被交联固定, 裂解细胞,得到全细胞裂解液。超声处理,将基因组 DNA 打断至 100-500 bp。抗体免疫沉淀:在细胞裂解液中加入一抗和 beads,并进行孵育。采用合适的实验条件进行洗脱,并解交联。通过 qPCR 对 ChIP 结果进行验证。准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。 方法2:Native Chromatin Immunoprecipitation

通过非变性的方式得到核裂解液。微球菌核酸酶(Micrococcal nuclease)消化染色质,得到单核小体或核小体寡聚体。抗体免疫沉淀:在细胞裂解液中前后加入一抗和 beads,并进行孵育。DNA 分离。通过 qPCR 对 ChIP 结果进行验证。 6. 准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。最后DNA 片段末端修复,3’端加 A 碱基,连接测序接头公司 Paired-End DNA Sample Prep kit)。 PCR 扩增及 DNA 产物的片段大小选择一般为 100-300 bp,包括接头序列在内合格的文库用于上机测序。

2质量控制相关的变量 2.1 reads quality issue

2.1.1 测序错误率Base Quality

Base quality indicates the confidence in the base call q = ?10*log 10 (0.01) = 20

测序错误率特征(1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合

图 前6碱基错误率高,125bp测序错误率高

2.1.2 CG含量

正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。前几个不稳定due to the random hexamer priming during PCR amplification,属于正常的现象

红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差

图:重复序列检测

2.1.3 重复序列

理论上出现重复序列的概率是很低的。如果出现重复的序列,很多是人工的artificiallyPCR 扩增。下图是横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。重复数目大于等于10的reads被合并统计

如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为

over-represented k-mer。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。K-mer可以用于检测是否有接头存在。

2.1.4 比对统计:检测对reference的比对情况

检测mapping ratio, 看比对上的总数,还可以同污染源的基因组进行比对。

2.1.5rRNA/tRNA 的污染

组成RNA的污染,如rRNA和tRNA, 最高时可以占整个转录组的60-90%。 建库时对这类RNA进行降解。有2种方法,一种是使用磁珠进行吸附选择有poly-a的转录本。第二种是对核糖体RNA进行消化。即使这样,仍然会有大量的核糖体rRNA污染存在。

2.1.6 Saturation Test of Sequencing Depth

测序深度不同,对低丰度的基因使用FPKM定量也并不稳定,此外做可变剪切,lncRNA需要更高的深度才能检测。一般认为100*-150*可以饱和。

.

2.1.7生物学重复

RNA-seq通常要求至少2个生物学重复,注意区别生物学重复和技术重复,生物学重复一般建议皮尔逊相关系数0.92以上。可以通过聚类,计算相关系数,PCA样品研究样品之间的关系。

2.1.8覆盖整齐度 Coverage Uniformity

RNA-seq测序的结果,理论上每个位点被测序到的机会是相等的,但是由于poly-A选择,3’端往往会具有更高的coverage.此外大多数reads应该位于基因注释区。

2.1.9 链特异性Strand Specificity

转录本可以从正义链和反义链进行转录,大多数基因位于正义链,但仍有部分能从反义链上转录出来,比如天然反义转录本NAT,普通的转录组数据可以通过剪切位点GT/AG 区分方向,但是无法定量反义转录本的表达量。

2.2 FastQ的数据格式

1.原始序列数据

高通量测序(如 Illumina HiSeqTM2000/MiseqTM)得到的原始图像数据文件经 CASAVA碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为 Raw Data或 Raw Reads,结果以 FASTQ (简称为 fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

FASTQ 格式文件中每个 read 由四行描述,如下:

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT +

#55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH

其中第一行以“@”开头,随后为 Illumina 测序标识别符(Sequence Identifiers)和描述文 字(选择性部分); 第二行是碱基序列;

第三行以“+”开头,随后为 Illumina 测序标识别符(选择性部分);

第四行是对应碱基的测序质量,该行中每个字符对应的 ASCII 值减去 33,即为对应第二 行碱基的测序质量值。

Perl代码: ord$base -33 3软件使用

3.1 常用的软件的名称

FastQC: PRINSEQ 做质量检测并可视化

Trimmomatic, Cutadapt, and FastX,Fastx-toolkits 3.2 软件的命令和参数

3.2.1 对文件进行 fastqc reads.fastq.gz 3.2.2 Fliter and Trim

java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz AVGQUAL:20

prinseq-lite.pl -fastq reads1.fastq -fastq2 reads2.fastq -phred64 -min_qual_mean 20 -out_good qual_filtered -out_bad null –no_qual_header –log –verbose

java -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz TRAILING:20 MINLEN:50

1.2去掉含有5‘ adapter污染的序列的command:

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper -i test.fltqual.fastq -o test.fltqual.f5.fastq -a \1.3含有3’ adapter的序列保留,且trim掉3‘adapter的command:

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper -i test.fltqual.f5.fastq -o test.fltqual.f5.t3.fastq -a \

整理zhaot

2015-5-9 参考:http://blog.sina.com.cn/s/blog_6a15f8d90100y5aw.html

https://www.huck.psu.edu/content/instrumentation-facilities/genomics-core-facility/samples/rna-seq-samples

本文来源:https://www.bwwdw.com/article/tlvt.html

Top