长非编码RNA研究进展 - 陈晓敏 - 图文

更新时间:2023-12-28 12:17:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Perspectives前沿评述生物化学与生物物理进展

ProgressinBiochemistryandBiophysics2014,41(10):997~1009

www.pibb.ac.cn

长非编码RNA研究进展*

陈晓敏张栋栋

骆健俊

陈润生**

(中国科学院生物物理研究所,中国科学院核酸生物学重点实验室,北京100101)

摘要长非编码RNA是指一类长度大于200个核苷酸、不编码蛋白质的非编码RNA.越来越多的研究表明,人类基因组中

高达90%的非编码蛋白质的区段同样具有重要作用,而不是所谓的“转录噪声”.针对长非编码RNA的功能研究表明,其在转录起始的调控、转录及转录后的调控中均发挥着重要作用,因而影响着各种各样的生物学过程.本综述围绕近几年长非编码RNA的研究成果,总结了长非编码RNA的起源与进化、新型的长非编码RNA类型、典型的长非编码RNA作用机制以及长非编码RNA在发育与细胞重编程过程中的研究,同时也概述了长非编码RNA与表观遗传调控和癌症的关系以及长非编码RNA研究的相关技术.系统发现长非编码RNA并阐明其功能机制,将对现代生命科学具有重大的意义.关键词

长非编码RNA,作用机制,发育与细胞重编程,表观遗传调控,研究技术

DOI:10.3724/SP.J.1206.2014.00294

学科分类号Q52

近年来非编码RNA的研究持续升温.从1999年开始到2010年的12年间有6年,非编码RNA相关研究成果都入选美国《科学》(Science)杂志的年度十大科技突破.特别是2010年12月17日《科学》杂志在评选进入21世纪后第一个10年的十大科学突破时,非编码领域被放在了第一位.2004年,Science以“隐蔽的DNA宝藏”为题,指出在占人类基因组90%以上的所谓“无用DNA”(junkDNA)序列中可能暗藏着大量的DNA调控元件、转座子和非编码RNA基因.2012年,“人类DNA元件百科全书计划(ENCODE)”的最新结果表明[1],大约80%的DNA序列都能转录成RNA.数目巨大、种类繁多的非编码RNA占细胞总RNA的绝大部分.这些非编码RNA无处不在,而且参与了包括从干细胞维持、胚胎发育、细胞分化、凋亡、代谢、信号传导、感染以及免疫应答等几乎所有生理或病理过程的调控.由此可见,非编码RNA的发现及其调控功能、机理的阐明,对现代生命科学具有重大的意义.

由于非编码RNA种类繁多,本文不再讨论已被学界广为了解的rRNA,tRNA,微RNA(miRNA),Piwi蛋白相作用的RNA(piRNA),小干扰RNA(siRNA),核内小RNA(smallnuclearRNA,

snRNA)以及核仁小RNA(smallnucleolarRNA,snoRNA),主要讨论长非编码RNA(lncRNA)近年来的发展.国际上普遍认为的长非编码RNA是指长度大于200个核苷酸的RNA转录本,以200个核苷酸划界是基于RNA的分离与提取程序[2].我们认为如果以100个核苷酸划界可能与RNA的结构与功能联系更紧密,短于100个核苷酸的RNA不易形成稳定的空间结构,因此是依靠碱基配对为主行使功能的,当RNA长于100个核苷酸时它们可能折叠成稳定的空间结构,从而依靠生物大分子空间结构的相互作用发挥功能.在以前的工作中我们也曾提出过中等长度的非编码RNA的概念,它们是指长度介于50~500个核苷酸的RNA[3].

长非编码RNA在转录水平参与了基因的表达调控,在转录后水平参与了信使RNA的编辑与加工,参与了翻译调控,参与了基因组的重构,参与了表观遗传调控、印迹调控和端粒系统的调控等,

*中国科学院战略先导项目(XDA01020402)和国家高技术研究发展计划(863)(2012AA020402和2012AA02A202)资助项目.**通讯联系人.

Tel:010-64888546,Fax:010-64871293,E-mail:chenrs@sun5.ibp.ac.cn收稿日期:2014-10-08,接受日期:2014-10-11

·998·

生物化学与生物物理进展Prog.Biochem.Biophys.2014;41(10)

其自身还可能成为核酶或核糖开关.由于长非编码RNA多样的生物学功能,科学家对其作用机制也提出了很多新的假说,如:长非编码RNA通过与蛋白质、RNA和DNA相互作用形成各种模块来行使生物功能[4];长非编码RNA是细胞地址码的关键组分[5];非编码RNA是细胞内和细胞外的信号分子[6]等.

随着非编码RNA的不断发现,国际上也出现了一些重要数据库来搜集相关信息为研究者使用,如:NONCODE[7-8]、Y2K[9]等.本文将就长非编码RNA近年的发展做一综述.

不均一核RNA(heterogeneousnuclearRNA,hnRNA),80年代又发现了核内小RNA(snRNA)和核仁小RNA(snoRNA),这说明基因组中的非编码序列是有信息发放的,它们应当具有生物功能.而真正对非编码序列及其转录产物的全面认识是始于20世纪90年代启动的“人类基因组计划”,这一计划导致测定了很多物种的完整基因组序列,从而了解了基因组中非编码序列的组成与结构[12].进入21世纪以后,随着转录组研究的开展以及ENCODE计划的实施,发现75%的人类基因组序列都有转录出的非编码RNA,这远比编码蛋白质的信使RNA多很多.几年前,日本的遗传研究所(RIKEN)在小鼠中获得了约180000个全长的RNA转录本,其中编码蛋白质的转录本仅有约20000个,其余约160000个转录本全部归属于非编码RNA[13].与此同时,一些有代表性的功能非编码RNA分子(如H19、Xist、lin-4、let-7、AIR)以及大量的miRNAs、piRNAs相继被发现.这样,一个崭新的、巨大的非编码核酸的世界就展现在了人们的面前.

1

1.1

长非编码RNA概述

非编码RNA研究历史

非编码RNA研究的发展源于科学界对基因组中非编码序列的认识(图1).早在20世纪70年代科学家们就注意到了非编码序列,并将其称为“junkDNA”[10-11].其实,当时科学家就猜测“junkDNA”并不是垃圾,应当具有生物功能.从20世纪70年代就发现了来自非编码序列的转录本,如:

ChromosomalRNAs(thatis,hnRNAs)showntobefunctionalwithoutmakingprotein

Onegene-oneenzymehypothesisproposed

Crickproposesthecentraldogma

hnRNAsdiscovered

(1982-1983)Self-splicingcatalyticRNAsdiscoveredTransgenesilencingobservedinplants

XistncRNAdiscoveredlin-4miRNAdiscovered

RNAidescribedinplantsandanimals

1941195319581961196619691972197719821989199019921993199419981999DoublehelicalstructureofDNAdescribedmRNAconfirmedasintermediatebetweenproteinandDNAJacobandMonodspeculatethatthelacrepressorisanRNA

ModelproposedforRNAactingasintermediateingeneregulation

IntronicncRNAelementsdefined

TransgenesilencinglinkedtoantisenseRNAH19ncRNAdiscovered

RegulatoryRNAsproposedtobecentraltoanimalevolutionanddevelopmentRNA-directedDNAmethylation

observedinplants

TSIX(antisensetranscripttoXIST)describedSmallRNAfoundtoberequiredforPTGSinplants

AntisenseRNA-mediatedTGSshowntorequireDNMT3A,EZH2andHDAC1

LargenumbersofncRNAsfirstreportedinanimals

AIRantisenseRNAfoundtobeinvolvedinimpriting

SmallRNAsshowntoepigeneticallycontroltranscriptioninhumancellsAGO2foundtodirectcatalysisinRNAimammals

AGO1andAGO2foundtobe

involvedinRNA-directedTGSinhumancellsncRNAsfoundtobeinvolvedintrithoraxregulation

LongantisenseRNAsfoundtoepigeneticallyregulatetheirsensecounterpartslncRNAsshowntointeractwithtrithoraxandactivatedchromatin

HundredsoflncRNAsshowntohavespecificexpressioninthebrain

let-7miRNAdiscovered

Pseudogene-encoded

lncRNAsfoundtoregulateprotein-codinggenesEnhancerRNAsshowninoestrogen-dependenttranscriptionalactivation

2000200120022003DroshadescribedinmiRNAprocessing

20042005200620072008200920102012ENCODEreportsthat~80%ofthegenomeistranscribingtranscribingncRNAs

2013DicerdescribedinRNAi

RNAi-mediatedPTGSfoundtobefunctionalinhumancellsRegulatoryRNAnetworksproposedtocontrolepigeneticprocesses

piRNAsdescribedLargenumbersoflncRNAsconfirmedinmammals

HOTAIRshowntohavearoleindevelopmentandassociatewithPolycombgroupproteins

tiRNAsreportedattranscriptionstartsitesinmammalsPRC2foundtointeractwithalargenumberoflncRNAsLongantisenseRNAsshowntodirect

vernalizationinplants

~70%ofsensetranscriptsfoundtohaveantisensecounterparts,someofwhichshowfunction

DiscoveryoftheCRISPRsystemofbacterialRNA-baseddefence

Fig.1图1

TheriseofregulatoryRNA[2]功能RNA的研究发展历程[2]

2014;41(10)陈晓敏,等:长非编码RNA研究进展

·999·

长非编码RNA的起源与进化

长非编码RNA是一种普遍的转录产物还是功能元件,起初非常具有争议性,它们在模式生物之间序列保守性差、表达量低,导致被猜测可能是由1.2

于一些低保真性聚合酶产生的转录本,而并不具有真正的功能[14].然而这种猜测被越来越多的深度测序分析所排除.首先,长非编码RNA的启动子区域以及剪切位点与蛋白编码基因具有一定相似性[15].其次,尽管序列保守性相对mRNA较低,长非编码RNA发挥作用可能并不是依赖于严格的序列上的保守性,而是依靠二级空间结构[16].虽然目前确定的长非编码RNA大量涌现,但绝大部分长非编码RNA在生命活动中的具体调控机制与功能模式仍需进一步的研究.

由于长非编码RNA的保守性相对较低,目前普遍认为长非编码RNA的来源与进化可能存在以下5种机制:a.蛋白编码基因的阅读框发生破坏而被转换成一个有功能的非编码RNA(图2a),比如Xist的起源,Xist的几个外显子与启动子区域被认为来源于蛋白编码基因Lnx3因转座子插入引起的阅读框突变.b.来源于染色体重排,两个不转录且相互远距离分离的序列区域发生并排而产生了一个多外显子的非编码RNA(图2b).例如狗的一个非编码RNA就是来源于此种序列谱系演变(EST序列BM537447、C0597044和DN744681).c.非编码基因可以通过反转录转座形成另一个有功能的

(a)

非编码逆转录基因,或者另一个无功能的非编码逆转录假基因(图2c).d.有的非编码RNA含有的邻近重复序列可能来自于其中一个序列的两次随机复制(图2d).e.某个序列插入一个转座子(绿色部分)而形成一个有功能的非编码RNA(图2e)[17].既然RNA在进化上是蛋白质的先驱,长非编码RNA介导的转录调控很可能是一种古老的基因表达调控机制[18].

研究发现,中枢神经系统中长非编码RNA表达量与进化复杂性成正相关.转录组分析显示,脑中存在大量灵长类和人类特异表达的长非编码RNA,而这些特异性表达的长非编码RNA在脑发育过程中通常是瞬时表达的,具有发育阶段的特异性[19-20].与编码基因相比,长非编码RNA具有更快的进化速度,如HAR1A,这些发现进一步证实长非编码RNA在脑的进化尤其是在脑认知和行为方面起到关键的调控作用[21-22].相反,在脑中还存在一类从鸟类到哺乳动物都保守表达的长非编码RNA,他们具有相似的时空表达方式[23].这类长非编码RNA通常是由超保守区(ultraconservedregions,UCRs)的DNA转录,与调控发育的关键基因有重叠或者是其互补序列.这一类型的长非编码RNA可以作为分子支架募集特定的蛋白从而调控周围基因的表达[24].

新型长非编码RNA

长非编码RNA的发现与鉴定需要多种来源、类型的数据,需结合RNA-seq数据、组蛋白H3第4位、第36位赖氨酸甲基化水平、转录起始位点、poly(A)位点等.判定一新的转录本是否是非编码RNA,目前比较可行的办法也只能采用排除法去排除该转录本编码功能蛋白的可能.真正的编码蛋白的基因通常具有以下几个特征,可以当成区分1.3

mRNA与长非编码RNA的标准:a.编码区域通常比随机期望的长度更长;b.功能开放读码框中的核苷酸使用频率多使用非随机选取的编码子;c.在进化进程中,选择性压力倾向于编码序列中的核苷酸替换;d.蛋白编码基因通常包含已知的蛋白结构域;e.编码区域通常能找到与数据库中匹配的序列信息.上述描述的蛋白编码潜力预测标准如果分开单独使用都会存在局限性.将其中几项结合起来考虑就能比较好地从长非编码RNA中排除具蛋白编码能力的转录本[25].

除了传统的长非编码RNA以外,近几年来,又发现了几类新类型的长非编码RNA,主要包括

(b)10Mb(c)

(d)

×3

(e)

+

Fig.2PossibleoriginsoflncRNAs[17]图2长非编码RNA可能的起源类型[17]

·1000·

生物化学与生物物理进展Prog.Biochem.Biophys.2014;41(10)

增强子RNA,竞争性内源RNA,环形RNA,以及反向长非编码RNA.

增强子RNA(eRNA)是一类从增强子区域转录出的长度从几百碱基到数千碱基不等的非编码RNA.在小鼠神经元中,已经检测到超过12000个增强子,其中有2000个能结合RNA聚合酶Ⅱ,并双向转录出长的且多数为不含poly(A)尾巴的非编码RNA[26].增强子RNA具有类似增强子的功能,能够跨越染色体,激活远端的启动子,并在一定程度上调控编码基因的组织特异性表达.在小鼠巨噬细胞中,核受体转录因子Rev-Erb蛋白在转录调控区域的结合主要通过抑制增强子RNA的转录来抑制靶基因的表达[27].与Rev-Erb的抑制功能相反,在人类乳腺癌细胞中,雌激素受体(ERs)激活了基因表达,不过和Rev-Erb一样,它们主要也是通过结合增强子控制增强子RNA增高来发挥功能[28].最近的研究发现,基因内部的增强子还有可能被作为可变的转录起始位点,这些增强子区域在产生大量的、短的、双向的、没有poly(A)尾巴的转录本的同时,还可以转录出由多个外显子构成的、长的、带poly(A)尾巴的增强子RNA,这种RNA也被称为多外显子增强子RNA(meRNA)[29].通过调控增强子RNA的表达去影响受增强子RNA调控的靶基因的表达,将是改变活细胞中基因表达的一条新途径.

近来,Pandolfi等[30]提出了竞争性内源RNA(ceRNA)调控基因表达的假说,认为竞争性内源RNA活性能形成一种大规模转录调控网络,扩大人类基因组中的功能性遗传信息,并通过miRNAs应答元件,作为mRNAs转录假基因,以及长非编码RNAs相互“交流”的新语言.Pandolfi等还认为ceRNA活性也在病理条件,比如癌症中扮演了重要角色,这对于解开一些癌症研究之谜具有非常重要的意义.

最近,一些学者提出了环状RNA充当分子“海绵”,结合并封闭了称作miRNAs的微小基因调控子的一种作用模式.这一重要发现再次提醒人们:RNA并不仅仅是DNA与编码蛋白之间的一个平凡信使.Hansen等[31]发现一环状RNA的表达阻断了miR-7,它使得miR-7活性受到抑制,miR-7靶基因表达增高,并由此推测这是因为这一RNA环捕获和失活了miR-7.在斑马鱼中,表达这一环状RNA或敲除miR-7可以改变大脑发育[32].研究表明,环状RNAs也可能是细胞外miRNA的海

绵,具有病毒miRNAs的结合位点,从而破坏免疫应答.

反向长非码编RNA(antisenselongnon-codingRNA)是指由已知的蛋白编码基因或者非编码基因的反义链转录的产物.随着二代测序技术以及全基因组分析技术的发展,发现人类基因组已注释的转录产物中30%具有反向转录产物[33].反向长非编码RNA表达丰度都比较低,一般是其正向转录本表达量的1/10.与蛋白编码基因相比,反向长非编码RNA主要分布于细胞核.其转录来源,可能是与其正向转录本共同使用一个双向启动子,也可能具有其独立的启动子,发挥功能的方式有两种:一种是其转录本身这个过程,另一种是以成熟转录物发挥作用.大家熟知的Xist和ANRIL是典型的反向长非编码RNA.

随着单细胞测序技术以及生物信息学的发展,加上ENCODE计划对于人类遗传信息的解读注释,必将会对更多的占有人类基因组98%的非编码转录产物有更深入的认识和功能发现.

2长非编码RNA的功能

长非编码RNA是具有功能的转录本,而不是转录噪声.越来越多针对长非编码RNA的功能研究表明其在转录起始的调控、转录及转录后的调控中发挥着重要作用,因而影响着各种各样的生物学过程,比如,剂量补偿、基因印迹、细胞周期、发育、配子形成等过程[34].通过募集染色质修饰复合物如多梳抑制复合物Ⅱ(PRC2),长非编码RNA给非特异的酶活性提供了一种基因特异的靶向机制,尽管多数功能已知的长非编码RNA抑制基因活性,最近的一些研究包括来自GENCODE的数据都发现了许多长非编码RNA也可以激活基因的表达,如增强子RNA[35].RNA测序数据尤其是多物种间的长非编码RNA数据分析比较结合最近的整合研究显示,长非编码RNA的功能并不单单取决于其分子大小、有无poly(A)尾巴、剪切、转录方向甚至链特异性,长非编码RNA在基因组中与靶基因的相对位置等结构信息也是影响其功能的一个不可忽视的基本重要因素[36].

长非编码RNA实现生物功能的分子机制

越来越多的研究表明长非编码RNA的异常调控广泛参与了生物学的多种功能,比如最早报道的2.1

与印迹相关的XistRNA,以及HOTAIR.Xist基因的5′端编码一个非编码RNA-RepA,RepA可以

2014;41(10)陈晓敏,等:长非编码RNA研究进展

·1001·

与PRC2结合,大量组蛋白被甲基化,最终导致X染色体失活[37].此种XistRNA介导的剂量补偿,即基于XistRNA表达的整条X染色体沉默机制,平衡了雄性XY染色体和雌性XX染色体之间X连锁基因存在的剂量差别[38].HOTAIR是最早发现与肿瘤转移相关的长非编码RNA之一,在原发和转移乳腺癌中均高表达,高表达的HOTAIR与肿瘤侵袭、转移和患者预后不良密切相关.典型的长非编码RNA作用分子机制可以概括如下[39](图3):2.1.1长非编码RNA作为信号分子

多数长非编码RNA由RNA聚合酶Ⅱ转录产生,长非编码RNA的表达具有细胞类型特异性并且受多种刺激调控,暗示着他们的表达受转录调控.此外,长非编码RNA的转录具有很强的时空特异性,表明其表达水平与发育及细胞环境紧密相关.与蛋白质调控相比,长非编码RNA信号分子因其转录剪切后即能折叠成高级结构,不需要翻译过程,因而能更快捷地行使调控功能(图3Ⅰ).2.1.2长非编码RNA作为诱饵分子

非编码区域的增强子和启动子的活跃转录暗示着长非编码RNA在调节转录中的重要角色,长非编码RNA通过结合目标蛋白或miRNA从而稀释了目标分子在细胞内的水平,进而影响其功能(图3Ⅱ).如长非编码RNAPANDA在感应DNA损伤刺激后应激表达,通过直接结合并拮抗核转录因子NF-YA,从而破坏依赖于NF-YA活性的

Ⅰ.信号分子

DNA损伤所激活的凋亡通路[40].

2.1.3长非编码RNA的导向作用

通过与目标分子的结合,长非编码RNA能指引核糖核蛋白复合体定位至特异的目标区域,作用方式可以是顺式也可以是反式(图3Ⅲ).目前还无法简单地通过序列分析预测其会以何种方式发挥作用.通过与RNA聚合酶作用以辅助转录的方式或者作为一些小的调节RNA分子的互补配对靶分子,长非编码RNA能以反式作用的方式引导目标基因附近的染色质修饰状态改变.通过与目标DNA分子结合形成RNA∶DNA异源双链核酸分子,或者RNA∶DNA∶DNA异源三链核酸分子,或者RNA识别特异染色质的复合物表面特征,长非编码RNA也能以反式的方式引导目标基因附近的染色质改变[39].

2.1.4长非编码RNA作为分子支架

不同于小RNAs,长非编码RNA因其结构及较长的核酸序列,越来越多的研究已经表明其不同功能域可以结合不同的蛋白质复合体,从而提供类似分子支架的功能,以引导相关的不同类型的大分子复合体在目标区域组装以协同发挥调控作用(图3Ⅳ).如HOTAIR,由HOXC基因编码转录产生,以分子支架的作用方式将两种不同的蛋白质复合物募集到染色体特定位点改变组蛋白甲基化修饰,从而顺式调控并抑制HOXD基因的表达,最终导致细胞侵袭转移能力的升高[41].

Ⅲ.导向作用

Ⅱ.诱饵分子Ⅳ.分子支架

Fig.3SchematicdiagramofthefourarchetypesoflncRNAmechanism[39]

图3

长非编码RNA四种典型的分子作用方式示意图[39]

2.2

长非编码RNA与microRNA的相互作用

通过与其他生物大分子(DNA、RNA以及蛋白基因的表达调控,包括染色质重塑、转录、mRNA前体剪切、mRNA周转、mRNA翻译以及蛋白质的稳定性[42].过去10多年的研究也已经开始揭示

质)发生相互作用,非编码RNA能在多层面上影响

·1002·

生物化学与生物物理进展Prog.Biochem.Biophys.2014;41(10)

哺乳动物长非编码RNA与microRNA(miRNA)间存在着如下主要的四种形式的交互调节作用:2.2.1miRNA介导的长非编码RNA降解

miRNA能调节某些长非编码RNA的表达丰度,从而影响目标长非编码RNA所参与的细胞生理、病理过程中的反应(图4a).例如RNA结合蛋白HuR能募集并促进miRNAlet-7家族成员与RISC成分Ago2蛋白结合,从而影响长非编码RNAlincRNA-p21以及HOTAIR的稳定性[43].2.2.2长非编码RNA通过诱捕或miRNA海绵作用拮抗miRNA的功能

研究表明,长非编码RNA也能影响miRNA的表达水平与功能,如竞争性内源RNA(ceRNA)因其序列中存在类似于miRNA靶标mRNA的序列,能诱捕miRNA与自身结合,减少miRNA对目标mRNA的影响从而拮抗miRNA的功能(图4b).2.2.3长非编码RNA与miRNA竞争性结合mRNAs

除了以竞争性内源RNA的方式作用外,长非编码RNA也会与miRNA竞争性的结合目标mRNA(图4c).例如与BACE1部分序列反义互补的长非编码RNABACE1AS,通过与mRNA的序列互补配对从而保护mRNA不受miRNA的结合,避免由miRNA-RISC所介导的RNA降解[44].

(a)

miRNA

lncRNA

(b)

2.2.4长非编码RNA作为miRNA产生的前体

研究表明,有些长非编码RNA也能在成熟过程中由内含子或外显子区域序列剪切产生miRNA(图4d).例如,linc-MD1能产生miR-206和miR-133b,显示了linc-MD1在肌肉分化与肌营养不良中的额外的调控机制.长非编码RNAH19也能产生miR-675,但此过程受HuR抑制[45].

越来越多的证据已经表明长非编码RNA与miRNA在转录、转录后、翻译后多个层面调节着基因的表达.miRNA对长非编码RNA的影响并非出乎意料,毕竟长非编码RNA与mRNA在许多方面上都类似.是否miRNA也调控着长非编码RNA的转录与剪切目前还无相关的报道,同理,长非编码RNA也可能在miRNA行使功能过程中发挥着尚无报道的作用,比如是否能作为miRNA与靶mRNA相互作用的分子架,此外,miRNA与长非编码RNA也间接地发生着许多复杂的转录后调节机制以调节基因表达[46].

3长非编码RNA与发育

长非编码RNA在发育分化过程中发挥着非常重要的功能,对多个组织以及不同细胞类型进行的深度测序以及深入的分析发现,与编码基因相比,长非编码RNA具有更强的细胞和组织特异性[47];此外,在有机体分化的不同阶段,长非编码RNA表达也存在着很大差别,这也暗示了长非编码RNA可能是细胞命运决定的微调因子“(fine-tuner”)[5,47].研究证实,长非编码RNA特异的时空表达与已知的细胞命运决定基因的表达具有很大的相关性,可以通过正向和负向调控,在分子水平决定细胞的分化方向[48-50].越来越多的研究表明,长非编码RNA与神经、肌肉以及皮肤等分化过程紧密相关[51].

3.1长非编码RNA在中枢神经系统发育过程调控中的作用

长非编码RNA在建立和维持细胞特异性基因表达调控过程中发挥重要的作用,而中枢神经系统是由神经元和神经胶质细胞组成,是最复杂和多元化的组织,因此研究中枢神经系统中长非编码RNA的表达具有重要意义.在一项研究脑发育过程的工作中,Lim等[20]分离了小鼠脑组织的3个不同区域SVZ、OB以及DG区,通过RNA-seq和ChIP-seq进行分析,发现超过3600个差异表达的长非编码RNA.对长非编码RNA和mRNA进行

mRNA

(c)(d)

Fig.4图4

Modesofdirectpost-transcriptional

interactionamonglncRNAsandmiRNAs[46]

长非编码RNA与miRNA转录后相互作用方式[46]

(a)miRNA介导长非编码RNA降解;(b)lncRNA通过诱捕或miRNA海绵作用拮抗miRNA;(c)lncRNA-miRNA竞争性结合mRNA;(d)lncRNA作为miRNA前体.

2014;41(10)陈晓敏,等:长非编码RNA研究进展

·1003·

聚类分析发现长非编码RNA比mRNA具有更高的组织特异性.此外研究者通过Capture-Seq研究成人SVZ组织,发现了超过7000个特异表达的长非编码RNA.通过功能验证和生物信息学分析进一步筛选到两个重要的长非编码RNA-Six3oc和Dlx1as.敲降此两序列均会影响SVZ区第7天的分化,其中敲降Six3oc导致Tuj1特异表达神经元细胞以及OLIG2阳性少突触细胞的分化阻滞,而Dlx1as的缺失只影响Tuj1神经元细胞的分化.在神经发生中,长非编码RNA同样起到重要作用,可以诱导神经系统的形成.大规模筛选显示敲降很多长非编码RNA都会发生从胚胎干细胞向神经细胞分化的阻滞[52].

中枢神经系统的复杂组成决定了其分化过程调控体系的复杂性,长非编码RNA在多个层面可以发挥调控功能,因此中枢神经系统的分化过程需要长非编码RNA的参与.对长非编码RNA的进一步研究必将发现更多与神经系统发育分化以及退行性疾病相关的功能性长非编码RNA.

3.2长非编码RNA与心脏发育的相互关系

在组织发育过程中,研究最清楚的是在中胚层发现并与小鼠心脏发育相关的两个长非编码RNA———Bvht(braveheart)和Fendrr(Foxf1adjacentnon-codingdevelopmentalregulatoryRNA).研究发现,在小鼠胚胎干细胞和新生小鼠心肌细胞中,敲降Bvht会影响心脏特异性基因的表达,从而影响心肌细胞的发育.进一步的机制研究表明,Bvht是与PRC2相互作用通过表观遗传学的修饰调控相关基因的表达.但是,Bvht只在小鼠中存在,人和兔中没有表达,也未发现功能同源序列[53].体外通过RNAi敲降Fendrr没有明显的表型,但是胚胎细胞中完全敲除该基因则会由于心脏功能的损伤出现胚胎致死现象,同时会影响体壁发育.这一研究也从另一方面说明完全敲除模型对长非编码RNA研究的重要性.进一步的机制研究发现,Fendrr既可以与抑制信号PRC2复合物相互作用也可以与激活信号MLL1复合物相互作用,在表观水平调控基因的表达.但是与Bvht不同,Fendrr在人类中存在同源序列,发挥作用的机制类似,可以与PRC2相互作用[54].

3.3长非编码RNA与骨骼肌发育的相互关系

在肌肉发生过程中,第一个被发现的长非编码RNA是linc-MD1(longnon-codingRNA,muscledifferentiation1).体外实验发现,MD1在小鼠成

肌细胞向肌肉细胞分化的特定时间内瞬时表达.机制研究表明,该长非编码RNA可以作为增强子RNA控制肌肉细胞从早期到晚期的整个分化过程,linc-MD1可以竞争性地与miR-133和miR-135结合,从而保护转录因子MAML1和MEF2C的表达,并进一步激活肌细胞的后期分化过程[49].Linc-MD1在人、鼠中是序列保守的[55],但是在进行性肌营养不良患者体内其表达是显著下降的.体外实验发现,恢复这些肌营养不良细胞linc-MD1的表达,可以修复肌细胞分化过程,暗示着linc-MD1在肌肉分化过程中具有相对保守的功能[49].3.4长非编码RNA与皮肤、造血以及脂肪发育的相互关系

长非编码RNA在上皮细胞分化中同样具有非常重要的功能.对组织的分子生物学研究,需要强有力的模型支撑.而在整个发育生物学的研究中,皮肤既是体内模型也便于体外研究,为长非编码RNA的功能和机制研究提供了理想的模型.Khavari等[56]在上皮细胞分化过程中发现两个重要的长非编码RNA,ANCR和TINCR.ANCR为长非编码RNA调控体壁干细胞分化提供了最早的证据,ANCR的缺失会导致表皮干细胞分化的异常,因此ANCR的主要功能是维持干细胞的干性,阻止其向上皮细胞分化.与ANCR不同,TINCR促进干性细胞向上皮细胞分化,祖细胞和分化的人类角质细胞转录组测序发现,TINCR是分化过程中表达差异最大的长非编码RNA.研究发现,TINCR缺陷的上皮细胞缺少终末分化的超微结构,包括透明角质颗粒和完整的层状颗粒.进一步对其作用机制进行研究发现,TINCR可以与STAU1蛋白结合形成TINCR-STAU1复合物,但是该复合物与mRNA结合从而稳定分化相关的mRNA,比如KRT80等蛋白,从而保证细胞分化的顺利进行[57].

文献报道,在造血细胞分化过程中也有长非编码RNA参与,其中lincRNA-EPS是在小鼠红细胞分化过程中发现的长非编码RNA.在小鼠造血祖细胞中敲降lincRNA-EPS会阻滞其分化过程引起凋亡.但是该长非编码RNA具体的作用机制还不明确[58-59].近年来我们实验室研究了间充质干细胞(MSC)向脂肪分化过程中差异表达的长非编码RNA,发现了一条有意义的序列,该序列可以通过表观修饰的改变阻滞MSC的成脂过程(未发表结果).

·1004·3.5

生物化学与生物物理进展Prog.Biochem.Biophys.2014;41(10)

长非编码RNA与细胞重编程

细胞重编程是指分化的细胞在特定条件下被逆转后恢复到全能型或多能性的状态,或者形成胚胎干细胞的过程.由成纤维细胞或者其他成体细胞向iPS细胞转化的细胞重编程过程证明了细胞命运的可塑性.在整个重编程过程中,表观基因组发生了完全的重塑,基因表达谱也发生巨大的变化,从而产生大量差异表达的mRNA、miRNA和长非编码RNA[60-62].目前对细胞重编程过程尤其是iPS过程中长非编码RNA的研究还非常有限,可用数据相对较少,因此在重编程过程中对长非编码RNA的研究大部分与胚胎干细胞相结合.最新的研究发现,在重编程过程以及小鼠和人类的胚胎干细胞中存在特异性的长非编码RNA,这些长非编码RNAs与重编程重要因子OCT4、NANOG以及SOX2表达有很大相关性[63].进一步生物信息学的分析显示,这些长非编码RNA的启动子区至少有一个重编程重要因子的结合位点[64].

对胚胎干细胞转录组进一步分析,发现大量的长非编码RNA参与细胞多能性分化的调控过程.Guttman等[64]针对其中的226个序列设计shRNA,通过功能性缺失实验寻找与干细胞干性维持以及抑制分化相关的长非编码RNA.研究发现,其中的26个长非编码RNA敲降后会影响Nanog的表达,从而导致ES细胞的多能性丧失.另有30个长非编码RNA敲降之后会导致胚胎干细胞向特定的谱系分化.Rinn等[65]在细胞重编程过程中发现一条重要长非编码RNA-lincRNA-RoR,研究发现敲降或过表达该序列均会显著影响成纤维细胞的重编程过程.与Guttman之前报道的结果不同,RNApull-down实验表明lincRNA-RoR可以与miR145-5p、181a-5p、99b-3p以及他们的靶基因Ago2结合.已有研究表明,这些miRNAs能够调控细胞重编程过程的核心分子包括Pou5f1、Sox2和NANOG,因此,lncRNA-RoR作为竞争性内源RNA在细胞重编程过程中发挥了重要的作用.

重编程过程中长非编码RNA的研究还处在相对早期的阶段,分离到的功能性长非编码RNA相对有限,具体的作用机制还不清楚,因此这是一个很有潜力的发展领域.胚胎干细胞的非编码转录组现在得到大家更多的关注,同时在胚胎干细胞中存在大量的RNA-seq和染色质修饰ChIP-seq的数据,为长非编码RNA功能的预测提供了很大的帮助.我们相信随着研究的深入,会有更多功能明确、机

制清晰的更重要的长非编码RNA被发现,从而进一步加深对细胞重编程过程的认识.

4长非编码RNA与表观遗传调控

长非编码RNA能作用于单个目标基因或一簇目标基因家族,对其在转录调控上的作用已经有广泛的研究,研究也发现许多长非编码RNA与蛋白质发生作用以调节转录激活或沉默.一些长非编码RNA已被证实在转录后调控基因表达,例如长非编码RNAMALAT1,能抑制丝氨酸/精氨酸蛋白活性,从而调节mRNA前体的可变剪切[66].

最近的研究结果显示,长非编码RNA在组蛋白修饰、DNA甲基化等表观遗传修饰过程中也发挥重要的作用,通过结合并募集特定的表观修饰酶复合物至目标基因区域,改变靶基因染色质或DNA修饰状态从而影响该靶基因的表达[41,67-68].如长非编码RNAHOTAIR,它的5′端能够结合PRC2复合物,3′端结合LSD1/CoREST/REST复合物,并将整个复合物锚定在特定的基因区域,使该区域的组蛋白H3的第27位赖氨酸甲基化,而使第4位的赖氨酸去甲基化,通过协调这种关系来调控基因表达(图5)[41,69].

甲基化

LSD1CoRESTRESTHOTAIR5′PRC2

H3K27me3H3K27me3H3K4me2H3K4me2

转移抑制基因PCDH10PCDHB5JAM2

3′

去甲基化

Fig.5SchematicpresentationofHOTAIRfunction

inbreastcancerprogression[70]

图5HOTAIR在乳腺癌进展中的功能示意图[70]

研究也发现,长非编码RNAecCEBP(extra-codingCEBPA)的转录本表达起始于CEBPA上游2kb,同向转录,但转录产物不含poly(A)且多富集在细胞核内,通过与DNA甲基化酶DNMT1结合而减弱CEBPA启动子区域的甲基化从而促进CEBPA基因的表达[68].肿瘤抑制因子TCF21的一个反义长非编码RNATARID,通过与TCF21启动子以及GADD45A相互作用,从而募集了DNA去甲基化酶TET蛋白至TCF21启动子区,表明长非编码RNA能介导特异目标基因的DNA去甲基化

2014;41(10)陈晓敏,等:长非编码RNA研究进展

·1005·

过程从而激活靶基因的表达[67].

起初,人们认为长非编码RNA的功能是在其位置周围发挥作用的,比如,调控邻近基因的表达等.然而,最近研究认为,长非编码RNA能够和上千个不同位置的染色质有相互作用,并进而大规模地调控基因表达.进一步对这些结合蛋白分析发现,功能性长非编码RNA可以结合各种染色质修饰复合物包括“阅读器”(readers)(Prc1、Cbx1与Cbx3)、“书写器”(writers)(Tip60/P400、Prc2、Setd8、Eset与Suv39h1)和“擦除器”(erasers)(Jarid1b、Jarid1c与Hdac1),以及DNA甲基化酶或去甲基化酶[67-68].然而长非编码RNA结合远程的结合位点的分子机制目前还不是很清楚[71],还有待进一步深入地研究.

码RNA在癌症中是至关重要的,但是我们对其功能的认识还很浅.有一些长非编码RNA,比如PCA3、PCGEM1、PCAT1等,是高度在前列腺癌中特异表达的非编码RNA,可以作为有效的生物标记物[72].

近年来的研究表明,有多种长非编码RNA在原发性肝癌中表达水平发生了显著变化,并具有重要作用.H19是第一个被发现的非编码RNA基因,在肝脏中,H19能与血管生成素和成纤维细胞生长因子相互作用,可改变其表达而诱发肿瘤[73].HULC是在肝癌中上调表达最高的转录本,也是首个被发现在肝癌胞质中过表达的长非编码RNA[74].在肝癌细胞中,位于核心启动子区的cAMP反应元件结合蛋白结合位点及PKA途径在HULC上调中具有重要作用.另一方面,HUCL能下调包括miR-372在内的一系列miRNA,从而在肝癌中发挥重要作用[75].和肝癌相关的长非编码RNA如表1所示[76].

5长非编码RNA和癌症

长非编码RNA与癌症等有着密切的关系,对

癌症的发生、发展及转移产生重要的影响.长非编

Table1

长非编码RNA

HULCTUC338UCA1/CUDR

HEIHMEG3HTOAIRHOTTIPMALAT-1LINC-ROR

ExamplesoflncRNAassociatedwithhepatocellularcarcinoma[76]

表1

肝癌相关的长非编码RNA列表[76]

肝癌中的可能作用

肝癌细胞中表达上调,高表达常与组织学分级及乙肝病毒相关

肝硬化组织以及肝癌细胞中表达增加调节细胞生长速度

具有化疗耐受性与乙肝病毒相关

肝癌细胞中表达下调,与甲基化相关检测治疗效的潜在分子标记物

抑制表达引起细胞侵袭能力降低化学感应性增加

肝癌细胞中表达上调,预测肝癌进展肝癌细胞中表达上调,与癌症转移复发相关

低氧状态下肿瘤细胞的存活相关

0.50.591.4~271.7~1.82.37.98.722.8大小(kb)

染色体上的位置

Chr6Chr12Chr19Chr5Chr14Chr12Chr7Chr11Chr18

肺癌转移相关的转录物MALAT1(metastasisassociatedlungadenocarcinomatranscript1),是一个长度大于8000个核苷酸的长非编码,主要在细胞核内发挥作用,它在多种物种中具有保守性.研究表明MALAT1在肺和胰腺中高表达[77],通过shRNA的方法敲降MALAT1,显示MALAT1通过调节包括caspase-3,-8,Bax,Bcl-2,BclxL等基因的表达,从而影响细胞的生长,细胞周期以及细胞侵袭,功能试验表明,MALAT1的3′端是其发挥作用的关键区域[78].因此,有望通过对MALAT1的3′端的干扰进行靶向治疗.

胰腺癌基因表达标志PCGEM1(prostatecancer

geneexpressionmarker1)是一个胰腺癌相关的长非编码RNA,在胰腺癌早期的发生和发展中起重要作用,PCGEM1基因长度为1603个核苷酸,在胰腺癌细胞和NIH3T3细胞中过表达PCGEM1,会促进细胞增殖和克隆形成能力,提示PCGEM1是一个致癌基因.PCGEM1的表达与胰腺癌细胞发展到去势复发阶段有重要相关性[79],去势复发是病发的最后一个阶段,对于患病者至关重要的意义.除了以上列举的一些癌症相关的长非编码RNA,还有一些诸如aHIF、ANRIL、Oct4-pg、PTENP1和BC200等在神经母细胞瘤、乳腺癌、胶质瘤、结直肠癌、神经退行性等疾病中有功能的

·1006·

生物化学与生物物理进展Prog.Biochem.Biophys.2014;41(10)

长非编码RNA.但是由于其自身结构的复杂性,对于它们如何发挥作用的机制还需进一步深入地研究.近年来,长非编码RNA对于疾病发生发展的科学价值和临床意义引起人们越来越多的兴趣,它不仅可以为包括癌症在内的许多复杂疾病的诊断和治疗提供新的依据和靶点,而且有助于人们进一步认识高等真核生物极其复杂的调控网络.

测序结果.

对长非编码RNA功能的研究与传统对基因的研究相似,可以通过敲降和过表达目标序列以发现具体的功能,研究方法包括RNAi、质粒和慢病毒转染以及TALEN/CRISPR等技术.对于长非编码RNA作用机制的研究,RNApull-down联合蛋白质谱分析是最常用的寻找与长非编码RNA相互作用蛋白的方法.此外,RNA结合蛋白免疫沉淀(RNA-bindingproteinimmunoprecipitation,RIP)联合qPCR实验可以用来进一步验证两者的相互作用[41].

长非编码RNA不仅与蛋白质相互作用也可与DNA相互作用,RNA纯化的染色质分离(chromatinisolationbyRNApurification,ChIRP)技术被广泛应用.首先用戊二醛固定细胞,以维持长非编码RNA与染色质的相互作用,然后进行细胞裂解和超声破碎,接着用生物素标记的寡核苷酸探针与靶长非编码RNA杂交,基于生物素和链霉亲和素相互作用的原理,用链霉亲和素磁珠来分离、纯化染色质复合体,最后从纯化的染色质复合体中分离蛋白质、RNA或DNA以进行下游的分析.Chang等[81]发展并完善了这一技术,与高通量测序结合用以在全基因组范围内扫描长非编码RNA的结合位点.

随着技术水平的飞跃发展,针对长非编码RNA研究的新技术必将会不断涌现,从而为长非编码RNA研究的快速发展提供必要的技术保障.

6长非编码RNA研究的相关技术

对长非编码RNA的研究直到最近几年才得到

广泛的关注,与长非编码RNA相关的数据分析以及实验技术也随之发展起来.与蛋白质研究方法不同,长非编码RNA的稳定性相对较差,容易降解.此外,其表达丰度也远低于mRNA.与miRNA相比,长非编码RNA因其长度更长,存在二级结构,发挥功能的方式也更复杂.因此,对长非编码RNA的研究除去常规的方法外还有很多是其特有的研究方法.

长非编码RNA的发现和系统鉴定

长非编码RNA的发现依赖于全基因组范围内对转录本的筛选,主要是注释为非编码的序列,比如缺少有效的开放阅读框等.现在专门针对长非编码RNA的数据库还比较少,NONCODE是现今收录非编码RNA最多,注释最全的专门用于非编码RNA查询的数据库[7-8].在数据分析的基础上可以进一步通过实验手段以系统鉴定长非编码RNA.利用长非编码RNA检测微阵列芯片,可以在芯片包含的探针信息的基础上筛选差异表达的长非编码6.1

RNA[80],快速、高效,但是其局限性在于所发现新的差异表达的长非编码RNA受限于探针的预设计.利用RNA-seq开展的转录组测序是现在分析差异表达长非编码RNA的另一有效途径.通过测序可以发现现有数据库中没有注释的序列,这是其独特的优势.

6.2长非编码RNA序列信息的确定以及功能和机制研究

现在数据库中大部分长非编码RNA信息都是通过测序发现并注释,因此其具体的序列信息并不是很明确,需要通过实验进一步鉴定其序列信息.常规的可以通过RACE以确定其两端序列,通过Northern杂交检测整条序列的长度以及主要的转录本,最终结合已有的测序信息以确定目标长非编码RNA的序列信息.利用RT-qPCR可以定量地分析样本中目标序列的表达水平,以进一步验证芯片和

7展望

近年来,对非编码RNA的研究使我们对一些经典的概念产生了新的认识,令我们不得不重新考虑遗传学和分子生物学的最核心问题:什么是基因?而“中心法则”等一批近乎经典的观念,在基因组产生的大量非编码转录本以及迅速涌现的非传统实验现象面前,正在经受着冲击.同时,也为我们创造新的研究成果提供了巨大机会.

[1]ConsortiumEP.AnintegratedencyclopediaofDNAelementsin

thehumangenome.Nature,2012,489(7414):57-74

[2]MorrisKV,MattickJS.TheriseofregulatoryRNA.NatRev

Genet,2014,15(6):423-437[3]

DengW,ZhuXP,SkogerboG,etal.OrganizationoftheCaenorhabditiseleganssmallnon-codingtranscriptome:Genomicfeatures,biogenesis,andexpression.GenomeResearch,2006,

本文来源:https://www.bwwdw.com/article/0onx.html

Top