转录组转录组及转录组测序

更新时间:2023-09-27 23:19:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章 转录组及转录组测序 第一节 前言

1953年,沃森与克里克对DNA双螺旋结构的精确描绘开创了生命科学的黄金时代,随后如火如荼的开展起来的人类基因组计划建立起庞大复杂的基因组数据库 使人类对了解生命本源和控制生命进程燃起无限憧憬。随着越来越多的基因测序工作渐渐完成,一本“写满生命密码的天书” 呈现在我们面前, 然而,接下来的问题更纷扰而至: 1) 这些基因有什么功能?

2) 不同的基因参与了哪些细胞内不同的生命过程? 3) 基因的表达是如何调控的呢?

4) 基因与基因产物之间是如何相互作用的呢?

5) 相同的基因在不同的细胞内的表达水平有差异吗?

6) 相同的基因处于疾病和治疗状态下的表达水平会有哪些改变? 如何读懂这本“天书”是目前横亘在科学家们面前严峻的挑战。

因此,在人类基因组项目后,转录组学,蛋白组学,代谢组学等组学不断涌现,生命科学研究已经跨入后基因组时代。其中,转录组学作为一个率先发展起来的学科是研究细胞表型和功能的一个重要手段,转录组高通量测序技术开始在生物学前沿研究中得到了广泛的应用。

第二节 转录组(transcriptome)与转录组学(transcriptomics) 读懂基因组这本“天书”,最先要研究清楚基因是怎么表达的。所谓基因表达,是指将基因携带的遗传信息转变为可辨别的表型的整个过程。基因表达的第一步, 也即基因表达调控的关键环节,是以DNA为模板合成RNA的转录过程。转录后的所有mRNA的总称即转录组。由转录组延伸出来一门学科即转录组学,它是分 子生物学的分支,负责研究在单个细胞或一个细胞群的特定细胞类型内所产生的mRNA分子,是从RNA层次研究基因表达的情况。

第三节 转录组研究的重要性

转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。转录组的研究比基因组的研究能给出 更高效的有用信息。比如,人类基因组包含有30亿个碱基对,其中大约只有5万个基因转录成mRNA分子,而转录后的mRNA仅部分被翻译生成功能性的蛋白 质。与基因组不同,转录组更有时间空间性。比如, 我们人体大部分细胞具有一模一样的基因, 而即使同一细胞在不同的生长时期及生长环境下,其基因表达情况也是不完全相同的。所以,除了异常的mRNA降解现象(如转录衰减)以外,转录组反映的是特 定条件下活跃表达的基因。

同时, 蛋白质组研究需要更多的转录组研究的信息。因为单一的蛋白质组数据不足以清楚地鉴定基因的功能,因此蛋白质组的数据也需要转录组的研究结果加以印证。因 此, 转录组的研究可以提供什么条件下什么基因表达什么信息,从而推断相应未知基因的功能,揭示特定调节基因的作用机制。通过对转录组的研究,科研人员还可以确 定不同种类的细胞和组织的基因在何时何地被激活或进入睡眠,对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗,比如与癌症相关的基因 表达量的改变可以帮助我们揭开癌症的秘密。通过对转录组的研究,也让个性化医疗的目标,从共性转移到个性,成为可能。

第四节 转录组测序

真核生物的基因由三类RNA聚合酶进行转录:RNA聚合酶I和III负责种类稀少、功能重要的看家非编码RNA基因的转录,包括 rRNA,tRNA,snoRNA,snRNA等。由这两类

RNA聚合酶转录的非编码RNA属于看家RNA,在各种生理和病理状态下都被高水平转录,转录 产物占细胞内RNA总量的95%以上,不是生命科学研究前沿领域的主要关注对象。相反地,RNA 聚合酶II负责蛋白质编码基因和调控非编码RNA的转录,在真核生物的不同生理和病理状态下表达量被严格调控,一直吸引着各生命科学研究领域的重点关注。 无比幸运的是,由RNA聚合酶II生成的转录的末端均含有3’端多聚腺苷尾【3’poly(A)tail】。转录组测序一般是对用多聚胸腺嘧啶 (oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。这样的数据有效排除了看家非编码RNA的干扰, 可以通过一次测序获得一种细胞内几乎所有重要基因的表达参数。

基于高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能够发现未知转录本 和稀有转录本,精确的识别可变剪接位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先 针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂 性的强大工具。

随着二代测序技术的发展,测序成本大幅度降低,大规模转录组测序将成为转录组研究的重要方法。多项研究已经表明,二代测序技术的应用,能有效改善诸如 EST 、SAGE 、CAGE、MPSS 、PET 和全长cDNA测序等传统转录组研究方法的结果,使之得到大大的提升。基于转录组高通量测序的种种技术优势,此种技术应用范围较广,主要有转录本结构研究 (基因边界鉴定、可变剪接研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。

第二章 高通量测序 第一节 测序技术的发展

测序技术最早是在20世纪70年代,是用双脱氧终止法[1]和化学降解法[2-3]测定多聚核糖核苷酸序列,也就是我们今天说第一代测序。双脱氧核苷酸末 端终止测序法是利用ddNTP在DNA合成反应中不能形成磷酸二酯键的原理来中断DNA的合成反应。在反应体系中加入一定量的带有放射性同位素标记的 ddNTP,通过凝胶电泳和放射自显影技术,根据电泳带的位置确定待测分子的DNA序列。化学降解法是用特定的化学试剂去标记碱基然后用化学方法打断待测 序列,再用电泳方法读出序列。两者有很明显的区别:双脱氧核苷酸末端终止测序法是利用ddNTP随机中断合成待测序列,化学降解法是用特定化学试剂标记碱 基再用化学方法降解成待测序列。

由于操作放射性同位素标记在某些方面很繁琐,80年代中期,有人以荧光标记代替了放射性同位素标记、以荧光信号接收器和计算机信号分析系统代替放射自显影 [4]。90年代中期,也有毛细管电泳技术的出现大大提高了测序的通量[5]。另外,在这一时期,也出现了一些其他测序方法,比如焦磷酸测序法[6],其 实就是后来Roche公司的454技术;还有连接酶测序法[7],也就是后来ABI公司的SOLiD技术。

大家熟知的人类基因组测序,当时只有第一代测序,完成整个人类基因组计划花费了30亿美元和三年时间。其成本之高,速度之慢激发了人们不断的创新,终于有 了第二代测序技术,简称高通量测序技术。与第一代相比,没有了高成本、慢速度,拿人类基因组计划来说,

原来30亿美元和三年时间等同于现在一周时间和低成 本。当然我们也不能完全就摒弃掉第一代测序,因为高通量测序技术产生的测序结果较短,更适合于对已知序列的基因组进行重新测序,对全新的基因组测序还要结 合第一代测序技术。

第二节 高通量测序

高通量测序技术(High-throughput sequencing)又称“第二代”测序技术(\sequencing technology)[8],以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。 同时,高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。 第二代高通量测序准确率,延长度都明显优于第一代高通量测序,更重要的是,价格比第一代大幅度降低,使得高通量测序的产业化成为现实。除此之外,高通量测 序还具有很多普通测序技术没有的优势。

1. 可扩展的高通量

Genome Analyzer系统每次配对末端运行后可以得到超过20Gb的高质量过滤数据。这个技术的可扩展性保证了更高的数据密度和输出,能用更少的经费完成更复杂的项目。 2. 需要样品量少

Genome Analyzer系统需要的样品量低至100ng,能应用在很多样品有限的实验中,如免疫沉淀、显微切割等。 3. 简单、快速、自动化

Genome Analyzer系统提供了最简单和简洁的工作流程。样品文库制备可以在几小时内完成,一个星期内就能获得高精确度的数据。 4. 新颖的测序化学技术

Genome Analyzer利用新颖的可逆荧光标记终止子,可以在DNA链延伸的过程中检测单个碱基掺入。由于四个可逆终止子dNTP在每个测序循环都存在,自然竞争减少了掺入的误差。 5. 单个或配对末端支持

Genome Analyzer系统支持单个片段或配对末端文库。文库构建过程简单,减少了样品分离和制备的时间。制备基因组DNA的单个片段或配对末端文库需要6h,手工操作只需3h。

第三节 高通量测序技术的应用 测序技术推进科学研究的发展,随着第二代测序技术的迅猛发展,科学界也开始越来越多地应用第二代测序技术来解决生物学问题,应用领域也较为广泛,主要应用如下: 1. 重头测序(de novo sequencing)

在基因组水平上对还没有参考序列的物种进行重头测序(de novo sequencing),获得该物种的参考序列,为后续研究和分子育种奠定基础; 2. 重测序(resequencing)

对有参考序列的物种,进行全基因组重测序(resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础[9];

3. 全转录组测序(whole transcriptome resequencing)

在转录组水平上进行全转录组测序(whole transcriptome resequencing),从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究; 4. 小分子RNA测序(small RNA sequencing) 进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子[10-11]; 5. 染色质免疫共沉淀测序(ChIP-seq)

染色质免疫共沉淀技术是研究DNA-蛋白质相互作用的经典技术,广泛应用于组蛋白修饰、特定转录因子调控作用等相关领域[12-13]。在转录组水平上, 与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。

目前,高通量测序开始广泛应用于寻找疾病的候选基因上。内梅亨大学的研究人员使用这种方法鉴定出Schinzel-Giedion 综合征中的致病突变,Schinzel-Giedion综合征是一种导致严重的智力缺陷、肿瘤高发以及多种先天性畸形的罕见病。他们使用Agilent SureSelect序列捕获和对四位患者的外显子组进行测序,聚焦于全部四位患者都携带变异体的12个基因,最终将候选基因缩小至1个。而贝勒医学院基 因组测序中心也计划对15种以上疾病进行研究,包括脑癌、肝癌、胰腺癌、结肠癌、卵巢癌、膀胱癌、心脏病、糖尿病、自闭症以及其他遗传疾病,以更好地理解 致病突变以及突变对疾病的影响。

参考文献

1. Sanger, F., S. Nicklen, and A.R. Coulson, DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A, 1977. 74(12): p. 5463-7.

2. Whitfeld, P.R., A method for the determination of nucleotide sequence in polyribonucleotides. Biochem J, 1954. 58(3): p. 390-6.

3. Maxam, A.M. and W. Gilbert, A new method for sequencing DNA. Proc Natl Acad Sci U S A, 1977. 74(2): p. 560-4.

4. Automatableprocessforsequencingnucleotide.

5. Heiger, D.N., A.S. Cohen, and B.L. Karger, Separation of DNA restriction fragments by high performance capillary electrophoresis with low and zero crosslinked polyacrylamide using continuous and pulsed electric fields. J Chromatogr, 1990. 516(1): p. 33-48.

6. Hyman, E.D., A new method of sequencing DNA. Anal Biochem, 1988. 174(2): p. 423-36.

7. Pfeifer, G.P., et al., In vivo footprint and methylation analysis by PCR-aided genomic sequencing: comparison of active and inactive X chromosomal DNA at the CpG island and promoter of human PGK-1. Genes Dev, 1990. 4(8): p. 1277-87.

8. Shaffer, C., Next-generation sequencing outpaces expectations. Nat Biotechnol, 2007. 25(2): p. 149.

9. Hillier, L.W., et al., Whole-genome sequencing and variant discovery in C. elegans. Nat Methods, 2008. 5(2): p. 183-8.

10. Jagadeeswaran, G., et al., Deep sequencing of small RNA libraries reveals dynamic regulation of conserved and novel microRNAs and microRNA-stars during silkworm development. BMC Genomics, 2010. 11: p. 52.

11. Zhang, H., et al., Genome-wide analysis of small RNA and novel MicroRNA discovery in human acute lymphoblastic leukemia based on extensive sequencing approach. PLoS One, 2009. 4(9): p. e6849.

12. Wallerman, O., et al., Molecular interactions between HNF4a, FOXA2 and GABP identified at regulatory DNA elements through ChIP-sequencing. Nucleic Acids Res, 2009. 37(22): p. 7498-508.

13. Zhang, Z.D., et al., Modeling ChIP sequencing in silico with applications. PLoS Comput Biol, 2008. 4(8): p. e1000158.

第三章 三种常见的测序平台

第一节Illumina Genome Analyzer 1. 历史渊源

Solexa技术最早由两位剑桥大学的化学家创立,利用专利核心技术“DNA 簇”和“可逆性末端终结”,达成自动化样本制备及基因组数百万个碱基大规模平行测序,2007年,Illumina公司花费6亿美金的巨资收购了 Solexa,利用其专利核心技术,实现自动化样本制备及基因组数百万个碱基大规模平行测序。

Genome Analyzer作为新一代测序技术平台,具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。

2. Genome Analyzer IIx测序技术原理 1)文库制备

将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。 2) 桥式PCR产生DNA簇

a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状 态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上;

b、通过扩增反应使得单链 DNA成为双链 DNA;

c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5’或 3’)随机 和附近的另外一个引物互补,被固定住,形成“桥“(bridge);

d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应;

e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形 成双链;

f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应;

g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”; h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;

3)测序反应

Illumina Genome AnalyzerIIx是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时加入带有4种荧光标记的dNTP,每个碱基末端被 保护基团封闭,每个循环只充许单个碱基合成,经过扫描,读取该次反应后后的荧光信号结果,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的 精确序列。

本文来源:https://www.bwwdw.com/article/pw1d.html

Top