信号通路相关文献挖掘与分析方法研究

更新时间:2023-07-26 14:15:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

信号通路相关文献挖掘与分析方法研究摘要

‘摘要

生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。随着生物医学文献的爆炸式增长,运用数据挖掘方法从文献中发现新知识受到越来越多的学者的关注。生物信息学研究的一个重要应用是开发信息检索的工具,对分散在文献里的有用信息进行系统整理。相对于传统的文献检索方法,这些方法具有速度快、自动化程度高的优点,尤其适用于大规模文献分析。

信号通路是生物对外界刺激做出反应的物质基础,几乎参与所有的细胞生命活动:代谢、分裂、分化、行使功能、凋亡等。近年来,与信号通路有关的研究如火如茶,但是大量的珍贵研究成果散落在海量的生物医学文献中,因此搜集、整理与信号通路有关的信息,对于全面理解生物进行复杂调控的机制具有重要意义。本文主要以信号通路的研究为背景,对蛋白磷酸化和基因转录调控这两个关键环节的文献进行搜集整理,并利用获得的文献数据预测蛋白磷酸化位点、推断癌症芯片中的转录因子和信号通路,旨在揭示信号通路的磷酸化机制以及信号通路在疾病、特别是癌症的产生和发展过程中的作用机制。

本文完成的有特色的研究工作主要包括:

I.基因的表达调控是信号通路中的重要环节,是信号通路的输出结果之一。本文提出了一种采用贝叶斯统计方法挖掘基因转录调控一转录因子结合位点信息的方法。通过大量统计获得描述转录因子结合位点文献中的特征单词,再使用贝叶斯统计的方法对未知类别的文献打分,根据分数判断一个未知分类的文献是否描述转录因子结合位点。从理论上证明这种方法与传统的TF/IDF方法是一致的。将该方法与PubMed提供的相关文献方法结合,可以极大提高数据挖掘效率,减少硬件消耗。本文方法能达到91%查全率,45%查准率。与关键词的方法(查全率<83%,查准率<26%)相比性能显著提高;查全率接近单独使用相关文献法(查全率93%,查准率27%),但查准率提高了不少,能极大提高数据挖掘的效率。应用本文的方法,共获得了61,000篇描述转录因子结合位点的文献。

2.蛋白激酶催化蛋白质磷酸化,在信号转导中起着信息转换的作用。本文再次利用贝叶斯统计和相关文献的方法对蛋白激酶的磷酸化位点数据进行搜索,并结合模式识别技术对描述磷酸化位点的句子进行颜色标记。共查找出701篇文

信号通路相关文献挖掘与分析方法研究摘要献,352个底物蛋白,498个磷酸化位点。利用这些数据与Phospho.Elm中的数据,我们提出了一种基于贝叶斯决策的磷酸化位点预测算法PPSP。对多个磷酸激酶家族的测试结果显示,该方法的预测效果好于目前常用的Scansite、KinasePhos、NetPhosK和GSP方法,而且具有简单、高效、鲁棒性好等优点。我们还设计了一个基于此算法的网站(http://bioinformatics.Icd—ustc.org/£堕£),向国际同行提供在线预测服务。

3.癌症芯片中的异常信号通路分析对于探究癌症的机理具有重要的指导作用,本文提出一种新的转录因子介导的信号通路分析方法,用来分析肿瘤芯片数据,从中推断异常的转录因子和信号通路。转录因子的活性通过统计其目标基因的表达来推断,然后将那些活性异常的转录因子映射到KEGG信号通路上。此方法整合了基因表达调控的实验数据和信号通路信息。利用此方法对斯坦福芯片数据库中的人类胃癌、乳腺癌以及多种癌症芯片数据进行分析,结果发现在许多芯片中TGF—B、JAK—STAT、NF-?B和Notch信号通路被异常激活。进一步对这些通路进行研究,将有助于探究癌症的发生、发展机理和进行合理的药物设计。

本文的研究工作得到了中国科学技术大学高水平大学建设重点项目以及国家科技部重点科研项目(2004AA235110)的资助。

ABSTRACT

,Bioinformaticsisaninterdisciplinarysciencethatdealswithbiologicaldataby

meansofstoring,searchingandperforminganalysiswiththepowerofmodemcomputers.Nowwiththeexplosivegrowthofbiomedicalliteratures,therehavebeenalotofinterestswithinthescientificcommunity

ainhowtocaptureinformationfromthevastcurrentscientificliteraturesinformsuitableforanalysisbycomputer.A

centralprobleminbioinformaticsistodesignliterature-miningtoolstofindthe

totraditionalkey-wordsretrievalnuggetsofinformationfromliteratures.Comparing

method,advantagesofthesetoolsareapparent:fast,automaticandefficientintimeandlaborresources,especiallyinlarge-scalearticleanalysis.

Signalpathwayisthesubstance

aofcells’responsebiologicaltoenvironment.ItplayscrucialregulatoryrolesinvarietyofcdlalaI

andprocesses,includingmetabolism,cell

pathwayhasbeencycle,differentiation,proliferationoneapoptosis,etc.Signalofthemost

areconcernsofmolecularbiologyinrecentyears.Butlotsofvaluableinformationdispersedinvolumesofliterature.It’Squitetimeto

collectthisinformationrelatedwithsignalpathwaytoundersmndthecomprehensivesignalpathway.

Inthisdissertation,someoriginalresearchworkbytheauthor

asCanbeformulatedfclllow:

1.Oeneexpressionisonetheresultofsignalpathway,andtranscriptionfactors

onplaypivotrolesinthisprogress.AliteratureminingmethodbasedBayesianis

firstproposedtoretrievearticlesdescribingbindingsitesoftranscriptionfactor.By

statisticallyidentifyingwordsthatdiscriminate

eachnewabstractcanrelevantabstractsfromotherabstracts,scorethenbeassignedaloglikelihoodfordiscussingbindingsiteoftranscriptionfactors,Wejustattestthatthismethodis

onsimilarwithclassicalinformationretrievalmethodwhichisbasedTF/IDFtheory.Theefficiencyofthis

methodisimprovedgreatlybycombiningwithrelatedarticlesmethodof

TherecallrateandprecisionrateofOurmethod

traditionalkey-wordarePubMed.91%and45%,whichoutperforms

PubMedmethod(recallarate<=83%andprecisionrate<=26%respective).Althoughourmethodhaslittlelowerrecallratethansolerelatedarticlesof

.m-

(recallrate93%andprecisionrate27%)witll-2%,theprecisionrateishighwith-18%enhanced.We

2.Proteinfoundabout63.000interestedarticleswiththismethod.importantroleintransforminginformationofkinases(PKs)play

signalpathway.Theyphosphorylatethesubstrates(proteins)atthespecificsites(phosphorylationsites)flankingwithcanonicalmotif.Onceagain,Weminedliterature

USedescribingphosphorylatesitesbyusingtheBayesianmethod.Wealsobuiltall

assistanttooltoaddcolortasinsentencesforrapid

dataanddatainprocess.WithonthesearchresultPhospho.ELM,WeproposedamethodbasedBayesiandecisiontheoIy_PPSPtopredictthepotentialphosphorylationsitesofPKs。Predictionresultson~70PKgroupsshowthatingeneral,itoutperformsstateoftheartmethods:Scansite,KinasePhos,NetPhosKandGPS,whichsuggeststhatthismethodisanothercompetitivecomputationalapproachinthisbranchofbioinformaties.Atthesametime,thismethodhastheadvantageofsimpleness,efficiencyandrobustness.Awebserviceisalsoavailableforonlineperditionat(http://bioinformaties.1cd-ustc0rg/旦鳖).

3.Anovelmethodcalled“TranscriptionFactor-MediatedPathwayAnalysis’’ispresentedtoinferabnormaltranscriptionfactorsandpathwaysincancerchips.Theactivityofatranscriptionfactorisinferredbyevaluatingthenetresultofpercentsof

genesinaactivated(orrepressed)targetchip,andthentheabnormaltranscription

thefactorismappedtopathwaysdepositedinKEGGtThisalgorithmintegrates

experimentsofgene—regulationand

breastpathway.Wecancerhaveanalyzedhumangastriccancer,MicroarraycancerandIIdifferenttypesofwhichstoredinStanford

Database(sMD)in

pathwayarethismethodandfoundthatTGF-8,JAK-STAT,NF-?BandNotchover-activatedinmanyofthesechips.Theseabnormalpathwayswillbeofgreathelpinunderstandingtheprogressofcancerandinrationaldmgdesign.

TheresearchworkinthisdissertationissponsoredbytheKeyResearch

ofUniversityofProJeelsandScienceandTechnologyofChinaandDepartmentofScienceTechnologyofChina(Z004AAZ3511∞..IV-

中国科学技术大学学位学位论文相关声明

本人声明所呈交的学位论文,是本人在导师指导下迸行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。

本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

保密的学位论文在解密后也遵守此规定。

作者答幺.作者签名:王互t笼兰兰至二≥。47年多月耳日

信号通路相关文献挖掘与分析方法研究第1章绪论

第1章绪论

1.1生物信息学

人类基因组计划(HumanGenomeProject)是美国科学家在1985年率先提出的,其目的在于阐明人类基因组核苷酸序列,破译人类全部遗传信息。随着HGP的正式启动,一门新兴学科一生物信息学(bioinfonnatics)应运而生。

生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的新学科。以计算机为主要工具,开发各种软件,对DNA和蛋白质的序列、结构等相关信息进行收集、储存、提取、加工、分析和研究,同时建立理论模型,指导实验研究。目前,生物信息学已广泛地渗透到生命科学的各个研究领域中,成为不可或缺的重要工具。生物信息学技术在人类疾病与功能基因的发现、识别,基因与蛋白质的功能研究方面都发挥着关键的作用。生物信息学的发展将会为生命科学研究带来前所未有的变革:它的成果不仅将对相关基础学科起巨大的推动作用,还将对农业、医药、卫生、食品等产业产生巨大的影响。毋庸置疑,生物信息学已经成为当前生物学领域的研究热点。

生物信息学研究范围十分广泛,大体包括以下方面:基因组序列分析和解释、药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预测、基因进化、基于遗传的流行病学、比较基因组学等【l】。

后基因组时代,生物学家们的研究重心已经从对生命所有遗传信息的解释转移到对生物功能的整体研究。一些新的技术,如SAGE、DNA芯片、蛋白质芯片等被用来对成千上万的基因以及蛋白进行分析和比较,力图从整体水平上对生命的活动规律进行阐述,产生了一系列“组”学。

1.转录组(transcriptome)

从基因组DNA转录的基因总和称为转录组,也称表达谱,是研究细胞表型和功能的一个重要手段。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。人类基因组包含有30亿个碱基对,其中大约只有2.5万个基因转录成mRNA分子,转录后的mRNA能被翻译生成蛋白质的也只占整个转录组的40%左右。通常,’不同的组织都会表达一套自己特有的基因以区别于其他组织【21。

信号通路相关文献挖掘与分析方法研究第l章绪论

转录组可以提供特定条件下的基因表达信息,并据此推断相应未知基因的功能,揭示特定调节基因的作用机制。通过这种基于基因表达谱的分子标签,不仅可以辨别细胞的表型归属,还可以用于疾病的诊断。通过正常人群和患者的转录组差异的比对,可以筛选出与疾病相关的具有诊断意义的特异性表达差异,建立差异表达谱,用于疾病的诊断,从而能尽早地,甚至在出现临床症状之前就对疾病进行诊断,并开始干预治疗。转录组的研究应用于临床的另一个例子是可以将表面上看似相同的病症分为多个亚型,尤其是对原发性恶性肿瘤,通过转录组差异表达谱的建立,可以详细描绘出患者的生存期以及对药物的反应等等[21。研究生物细胞中转录组的发生和变化规律的科学就称为转录组学(transcriptomics)。目前用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术包括cDNA芯片和寡聚核苷酸芯片,基于序列分析的基因表达系列分析SAGE(serialanalysisofgeneexpression)13J等。

2.蛋白质组(proteome)

某种生物所能表达的所有蛋白质称为蛋白质组,即一种细胞乃至一种生物所表达的全部蛋白质的总和f4】o

蛋白质是生物功能的主要体现者,有其自身特有的活动规律,仅仅从基因的角度来研究它是远远不够的,例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上获知。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多疾病机理的阐明及攻克提供理论根据和解决途径。通过对正常个体及病理个体间的蛋白质组比较分析,我们可以找到某些“疾病特异性的蛋白质分子”,它们或者成为新药物设计的分子靶点,或者能为疾病的早期诊断提供分子标志。在整体水平上研究细胞内蛋白质组分及其活动规律的新学科就称为蛋白质组学(proteomics)141。蛋白质组学通过各种大规模技术研究蛋白相互作用和蛋白修饰变化等,最重要的工具就是质谱仪。

3.代谢组(metabolome/metabonome)

代谢组学是通过考察生物体系受刺激或扰动前后(如将某个特定的基因变异或环境变化后)代谢产物图谱及其动态变化,来研究生物体系的代谢网络的一种技术,研究对象主要是针对分子量1,000以下的内源性小分子网。与转录组学和蛋白质组学等其他组学比较,代谢组学具有以下优点:(1)基因和蛋白表达的

信号通路相关文献挖掘与分析方法研究第1章绪论微小变化会在代谢物水平得到放大;(2)代谢组学的研究不需进行全基因组测序或建立大量表达序列标签(EST)的数据库:(3)代谢物的种类远少于基因和蛋白的数目;(4)生物体液的代谢物分析可反映机体系统的生理和病理状态。通过代谢组学研究既可以发现生物体在受到各种内外环境扰动后的应答不同,也可以区分同种不同个体之问的表型差异,因此在国际医药、动植物、微生物等研究领域内得到了广泛应用【卯。

在这些组学的研究中,均需借助于生物信息学平台。特别是后期的数据解释往往需要借助一定的软件,联合多种数据分析技术,将多维、分散的数据进行总结、分类及判别分析,发现数据问的定性、定量关系,解读数据中蕴藏的生物学意义.如果说分析技术在我们面前打开了“一扇门”,正确的数据分析方法和模型建立便是“找到宝藏”的钥匙。

数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。大多数的生物学知识,比如蛋白质之间的相互作用、蛋白的空问与时间表达以及调控、蛋白与表型甚至疾病的关系都被记载在各类文献中。生物信息学的一个分支即是利用自然语言处理技术挖掘大量的生物医学文献。如何将这些珍贵的资源从文献中挖掘出来,并整合到这些组学中,需要开发有效的文献挖掘工具。

同时,这些大规模的基因表达数据和蛋白质组数据的解释需要借助复杂的模型进行系统分析,由此产生了系统生物学。

1-2系统生物学

什么是系统生物学?根据系统生物学创始人胡德的定义,系统生物学是研究一个生物系统中所有组成成分(基因、mRNA、蛋白质等)的构成,以及在特定条件下这些组分间的相互关系的学科。也就是说,系统生物学不同于以往的实验生物学——仅关心个别的基因和蛋白质,它要研究所有的基因、所有的蛋白质组分间的所有相互关系,是以整体性研究为特征。系统生物学和人类基因组计划有着密切的关系。它的诞生正是基于基因组学、蛋白质组学等新型科学的飞速发展。反之,系统生物学的诞生进一步提升了后基因组时代的生命科学研究能力。“系统生物学将是21世纪医学和生物学的核心驱动力”。随着1999年创立了世界上第一个系统生物学研究所(InstituteforSystemsBiology),系统生物学便逐渐得

信号通路相关文献挖掘与分析方法研究第l章绪论到了生物学家的认同,也唤起了一大批生物学研究领域以外的专家的关注。美国《科学》周刊还在2002年3月登载了系统生物学专集16】。该专集导论中的第一句话这样写道:“如果对当前流行的、时髦的关键词进行一番分析,那么人们会发现,‘系统’高居在排行榜上.”

系统生物学研究本身就不是单一的,是一个周期循环的过程,它以已有的实验知识网络为基础,以计算机和数学为手段,推进后续实验的进行,大大提高实验效率,离开了他们就不会有系统生物学。也许正是基于这一考虑,科学家把系统生物学分为“湿”的实验部分(实验室内的研究)和‘吁”的实验部分(计算机模拟和理论分析)。“干”与“湿”的完美结合才是真正的系统生物学。系统生物学研究范围极其广泛,至少包括分子生物学研究、高精度综合测量技术、系统动力学分析、计算机科学(如仿真、高性能计算)以及软件工具等关键领域。

系统生物学的基本工作流程可以分为一下四个阶段n:

搜集信息,建立系统模型

选定的某一生物系统,了解和确定系统所有组分。包括基因之间、蛋白质之间、基因与蛋白质之间的相互作用、生化通路的网络和代谢途径,以及细胞内和细胞问的作用机理,比如细胞的代谢网络、信号转导网络、基因调控网络的结构与功能等。描绘出该系统的结构,建立一个初步的系统模型。特别要指出的,系统生物学需要全面、精确的数据。量化的测量不仅要覆盖生物系统的诸多特征、参数,而且需要满足系统动力学分析所需的精细的时空粒度,比如,传统生物学实验通常仅测量特定事件的变化前后,系统生物学需要整个时间序列的测量。

假设条件,测试系统模型

首先是“干涉”,就是指系统地改变被研究对象的内部组成成分(如基因突变)或外部生长条件,然后观测在这些情况下系统组分或结构所发生的相应变化,包括基因表达、蛋白质表达和相互作用、代谢途径等的变化,并把得到的有关信息进行整合。

分析验证,改进系统模型

把通过实验得到的数据与根据模型预测的情况进行比较,并对初始模型进行修订。循环运行,优化系统模型

信号通路相关文献挖掘与分析方法研究第1章绪论

根据修正后的模型的预测或假设,设定和实施新的改变系统状态的实验,重复第二步和第三步,不断地通过实验数据对模型进行修订和精练。最终目标就是要得到一个理想的模型,使其理论预测能够反映出生物系统的真实性。

系统生物学之所以不同于一般的实验生物学就在于它既需要“发现的科学”,也需要“假设驱动的科学”。然后利用“发现的科学”的方法,对系统在该条件下的所有元素进行测定和分析;在此基础上做出新的假设,然后再利用“发现的科学”研究手段进行新研究。这两种不同研究策略和方法的互动和整合,是系统生物学成功的保证。

系统生物学可以将生理现象、病理现象建立于精确的模型基础上。基因多态性图谱预测药物的疗效及其副作用,被认为是药物研发的技术平台,对医疗、制药具有深远的意义,目前全球十大制药企业已有六家设立了以系统生物学为基础的新药研发实验室。它还可以对疾病的发生机理、诊断、治疗实施监控,包括建立一个综合多种调控通路的细胞模型,为基于机理的药物发现提供系统层次的理解,辅助药物效果评估,预测副作用,发现有效控制细胞状态的手段等等。我们可以期望的发展前景是:全部基因都将知晓,以电子形式驻留在数据库中,生物学研究的出发点将是理论的,生物学家将从理论推测出发,然后再返回到实验中去,追踪或验证这些假设。药品管理部门在审查治疗药剂时需要计算机仿真的数据就像现在建筑物需要抗震的结构动力学分析数据一样。

近几年,研究方法的创新对生物学研究思维方式产生了深远影响。DNA测序、多态性检测、基因芯片、基因敲除以及蛋白质相互作用检测等技术在生物学问题上的应用,为解决生物学上从发育到人类疾病等重要问题提供了参考模型。新的方法是否已经导致新的思维方式?从某种意义上来说,答案是肯定的,因为从基因组和蛋白质组数据中推测出了一些我们以前并不清楚的结论。

1.3本文的研究概述

生物体是由一个个结构特殊、功能各异的细胞组成的复杂系统,细胞与细胞间大多有各自相对独立的内环境,但与此同时细胞们时时刻刻都在接触来自细胞内、外的各种各样信号,引发各种各样的生理反应。细胞的一切生命活动都起于信号。细胞外信号分子一般不能直接进入细胞,必须通过与胞膜表面(或胞内)特异受体结合,引发胞膜变化,产生胞内信号分子并传至胞核,从而引起基因及

信号通路相关文献挖掘与分析方法研究第1章绪论蛋白质变化,最终调节细胞功能,此过程称为信号转导通路,简称为信号通路。

从各种信号最终所导致的行为和功能来看,信号通路几乎渗透于所有的细胞生命活动:代谢、分裂、分化、功能、凋亡。Science的STEK(SignalTransductionKnowledgeEnvironment)和Nature的(NatureSignalingGateway)等专业的数据库提供了信号转导机制等的最新进展和已有知识的搜集整理,对于我们全面了解信号转导通路提供有益的帮助。以下是比较常见的与信号通路密切相关的数据库。

存放信号通路的数据库:

STEK(http://stke.sciencemag.ore,/)

SignalingGateway(http://www.signaling-gateway.org/)

KEGGIsl(www.genome.jp/kegg)

Biocarta(http://www.biocarta.comD等

存放磷酸化位点信息的数据库:

Phospho.ELM/PhosphoBase[引(http://phospho.elm.e11.o,g/)

PhosphorylationSiteDatabase(http://vigen.biochem.vt.edu/xpd/xpd.htm)

PhosphoSite(http://www.phosphosite.org/Logln.jsp)等

。存放转录因子结合位点的数据库:

Transfac[10】(http://www.gene-re盟lation.com/pub/databases.html#transfac)

TRRD[1“(http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/)等

将这些资源整合以及阐释这些信号通路在各种疾病特别是癌症中的作用,是一项非常有意义的工作。

本人在读博期间的主要研究内容是利用文献挖掘技术从PubMed数据库中挖掘与信号转导相关文献(主要是转录因子结合位点文献和磷酸化位点文献),并利用搜集的数据,通过统计建模的方法(如布尔逻辑法,贝叶斯决策法等),从序列信息(蛋白质序列)或基因表达数据(基因芯片)中提取出重要的生物学信息(如激酶的磷酸化底物信息、癌症芯片中异常的转录因子和信号通路信息)。将有助于我们进一步理解信号通路与疾病的关系。

本文的主要研究内容包括以下四部分:

1.信号通路的基础知识本文第二章对信号通路的基本概念、功能、主要组成部分以及与癌症的关系

信号通路相关文献挖掘与分析方法研究第1章绪论做了简要概述。重点对信号通路的激酶、转录因子等作了比较详细的介绍。

2.基于贝叶新统计的转录因子结合位点文献挖掘

转录调控是信号通路的最终结果之一,在此过程中转录因子能够调控基因的转录表达。一般来说,一个基因受到多个转录因子的影响,但是目前研究的不够完整,而且现有的研究数据零散的记录在PubMed的文献中,没有统一的整理归纳,需要借助文献挖掘工具进行搜集整理,以便为后续研究提供有益的帮助。贝叶斯统计的方法能够区分描述不同内容的文献,结合PubMed的相关文献方法,能够快速、高效地实现目标文献的搜集。本文第三章对此算法做了分析,并结合PubMed的相关文献法,将其应用在转录因子文献的挖掘中。

3.磷酸化位点的文献挖掘和磷酸化位点预测

蛋白质磷酸化在信号转导中具有非常重要的作用,相应的研究是近几年生物信息学领域中的热门课题。由于目前实验技术鉴定磷酸化底物的特异性和精确性都不够,特别是对于识别基于不同底物的蛋白激酶位点仍然十分困难。而基于计算手段的磷酸化位点预测可以提供快速,自动的注解,既可以帮助生物学家们分析蛋白质磷酸化的问题,又可以作为进一步实验设计的指导。因此用计算手段处理磷酸化的方法在近些年得到迅速的发展。本文第四章中继续介绍使用贝叶斯统计的方法获得磷酸化位点数据,再次验证了此方法的有效性。同时主要介绍如何利用贝叶斯决策法对蛋白质磷酸化位点进行特异性预测。

4.癌症基因芯片中异常信号通路推导

肿瘤是一种恶性的疾病,源于变异的DNA序列,随之而来的是与调节组织平衡、细胞生存、死亡的相关重要的信号通路被重新连接。正常致癌基因和抑癌基因编码的蛋白往往与信号通路紧密相关,当它们发生变异时,导致基因表达模式的改变。也就是说,异常的信号通路导致与细胞增殖和细胞周期有关的基因表达异常,引起细胞异常分裂并抑制凋亡。基因芯片可以大规模地测量癌症中异常的基因表达,本文第五章将讨论如何结合文献挖掘建立的转录因子数据库从这些异常的基因表达数据中分析出异常的转录因子和信号通路,并参考已有研究进展,对这些信号通路与癌症的关系做了比较详细的阐述

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿瘤

第2章信号通路与癌症

2.1信号通路

2.1。1信号通路概述

一j弱搋羔,洚矧IgtA"t,

卜^∞豳

.K:

图2-1信号通路示意圈

2.1.2信号通路的生物学效应

生物体各细胞间的信号传递是严密而精确的过程,特定细胞分泌的信息物质,借助循环系统到达靶细胞,与靶细胞上受体结合后启动该细胞内的信使系统,引发相应生物学效应。从各种信号最终所导致的行为和功能来看,信号通路几乎渗透于所有的细胞生命活动【121:

细胞代谢一使细胞摄入并代谢营养物质,提供细胞生命活动所需要的能量;细胞分裂—使与DNA复制相关的基因表达,调节细胞周期,使细胞进入分

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿瘤裂和增殖阶段;

细胞分化—使细胞内的遗传程序有选择地表达,从而使细胞最终不可逆地分化成为有特定功能的成熟细胞;

细胞功能—使细胞能够进行正常的功能活动,如肌肉细胞收缩或者舒张,分泌神经递质或化学介质、细胞骨架的形成等;

细胞死亡—使机体通过细胞凋亡进行组织更新或者组织器官形成。

2.1.3信号通路的组成

2.1.3.1细胞外信号分子一信号的发起者

生物细胞能对各种各样的信号作出反应,包括物理信号(光、热、紫外线、x.射线等)、化学信号(离子、氧化还原化学物质、化学诱导剂等)和生物学信号(生长因子、分化因子、神经递质和激素等)等。通常将这些能结合并激活受体的细胞外信号物质称为第一信使,也称细胞外因子。在这些信号中,最经常、最普遍、最广泛的信号是化学和生物信号。通常包括以下几类信号【廿J:

1.生长因子(growthfactor)

是一类调节细胞生长、分化的多肽类物质。与生长发育、免疫、肿瘤等方面密切相关。包括血小板生长因子(PDGF,Platelet-Derived

长因子(EGF,Epidermal

-ingGrowthGrowthGrowthFactor)、表皮生Factor)、13转化生长因子(TGF-p,TransformFactor-t,)、红细胞生成素(EPO,Erythropoietin)、神经生长因子(NGF,

GrowthFactor)和血/J',NerveGrowthFactor)、类胰岛素生长因子(IGF,Insulin.1ike

板生成索(TP0,Thrombopoietin)等。

2.细胞因子(cytokine)

主要由活化的免疫细胞和某些间质细胞所合成、分泌的具有调节细胞生长、分化、成熟、调节免疫应答、参与炎症反应、促进刨伤愈合、参与肿瘤生长的多肽类活性分子的统称。包括a干扰素(IFN-a,Interferon一∞、Y干扰素0Fn-y,Interferon-y)、肿瘤坏死因子(TNF,Tumor

2,3,4等)等。

3力我素(hormone)

是由生物体内各种特殊的内分泌细胞所分泌,能够随血液运输至身体各部分,与特异性的受体结合的化学物质。如胰岛素(hlsulin)、雌性激素(Estrogen)、..9~NecrosisFactor)、白介素(Interleukins1,

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿捆雄性激素(Androsterone)等。

4.凋亡分子Fas

细胞膜表面的Fas分子与FasL(Fas的受体)或其抗体结合后,可向细胞内传递死亡信号,细胞在数小时内死亡。

5.黏附分子(CAM,celladhesionmolecules)

分布于细胞表面或细胞外基质中,通过配体,受体的形式参与细胞与细胞及细胞外基质间互相作用的一类分子。如整合素家族(inter-infamily)粘附分子、选择素家族(∞lectmfamily)粘附分子、免疫球蛋白超家族(Ig-superfamily)粘附分子、钙离子依赖的细胞粘附素或钙粘素家族(cadherlnfamily)粘附分子。

6.血管活性物质(Vasoactivesubstances)

指血管内皮细胞分泌的对心肌收缩力、心率、血管张力等有影响的物质,包括一氧化氮@0)、内皮素(E1)、血管紧张素II(AugII)、缓激肽、前列环素(PGl2)、腺苷等。

7,神经递质和神经肽(Neurotransmittcrsandneuropeptid,s)

是神经系统进行信息传递的物质基础。

2.1.3.2受体—信号的接收者

受体就像是嵌在细胞膜上的一把锁,只有用对了钥匙,才能打开引发后续效应。它能够准确无误的识别和接受外来信号,及时响应将信息传至细胞内,激活或启动相应的生物化学反应,产生特定生物效应。包括以下两大类:

1.膜受体(Membranereceptors)

kinasereceptor)1)酪氨酸激酶受体(Tyrosine

可以催化底物蛋白酪氨酸残基磷酸化或自身磷酸化,从而激活下游信号途径。如PDGFR,IR,EGFR和FGFR。由于大多数调节细胞增殖及分化的因子都通过这条途径发挥作用,故它与细胞增殖和肿瘤发生的关系十分密切。

2)受体酪氨酸磷酸酶(receptorTyrosinephosphatase)

典型的代表就是CD45。CD45是T、B细胞活化的重要物质。存在于除成熟红细胞和血小板外的所有血细胞的表面。

3)鸟营酸环化酶(Guanylatecyclases,GC)

存在于心血管系统和脑内,一氧化氮龇ricoxide,NO)激活胞浆可溶性GC,

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿瘤心钠素及脑钠素激活膜颗粒性GC,增加cGMP生成,再经激活蛋白激酶G(proteinkinaseG,PKG)磷酸化靶蛋白发挥生物学作用。代表性的受体为脑钠素受体

peptide(natriuretiereceptors)。’

4)丝氨酸/苏氨酸激酶受/体(ProteinSerinefl'b_reoninekinases,PSTIQ

主要是与TGF-B/Smad通路相关。TGF-B受体超家族是具有PSTK活性的受体。其配体包括TGF-IB家族、抑制素(inhibins)、活化素(acfivin)、骨形态发生蛋白(BoneMorphogeneticProteins,BMPs)家族等。其中广受关注的是TGF-B,TGF-B具有广泛的生物学作用,不同的细胞发挥不同的效应,包括参与细胞生长分化、免疫功能的抑制、损伤的修复、细胞外基质的形成。该超家族受体中起信号转导的分为I型和n型两个受体亚家族。它们的胞内都有PSTK区。II型受体能单独与配体结合,之后与I型受体形成寡聚体,并使后者磷酸化从而激活。激活的I型受体进而使Smad蛋白家族磷酸化,后者可以二聚体的形式转入核内,并与其他DNA结合因子结合,促进靶基因的转录,导致生物效应。

5)与G蛋白偶联的受体

GTP结合蛋白又称G蛋白,是指可以通过与GTP/GDP的结合来调控活性的蛋白。活化的G蛋白通过作用于细胞内一系列效应底物,来影响细胞的生长、分化、凋亡和细胞周期等一系列重要的生命现象。G蛋白活性的失调与肿瘤的发生、侵袭和转移等过程密切相关,按组成G蛋白可以分为两类:①由a、B和?亚单位组成的异三聚体,在膜受体与效应器之间的信号转导中起中介作用;②小分子G蛋白,为分子量21~28kD的小肽,只具有G蛋白a亚基的功能,在细胞内进行信号转导。

受体与G蛋自形成G蛋白偶联受体(Gproteincouplingreceptors。GPCRs)。细胞中存在数以千计的特异性G蛋白偶联受体:有些识别激素,改变新陈代谢的水平;有些在神经系统中传递神经信号;有些则作用于感官信息的传递。当细胞受到各种刺激信息(包括化学性的激素、神经递质及和菲化学性的味觉、视觉、嗅觉等)时,通过G蛋白的激活作用,在胞浆中生成数目众多的第二信使分子(如cAMP、cGMP、DAG、IP3、Ca“),产生放大效应,引起细胞兴奋,然后促迸细胞完成各自功能。G蛋白偶联受体在结构上的共同特征是单一肽链7个a螺旋来回穿越膜,构成7次跨膜受体,N端在细胞内,C端在细胞外,发挥各自不同的效应。

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿瘤

6)离子通道受体

具有离子通道作用的细胞质膜受体称为离子通道受体。这种受体见于可兴奋细胞间的突触信号传导,产生一种电效应,如烟碱样乙酰胆碱受体(nAchR)、7.氨基丁酸受体(6ABAR)和甘氨酸受体等都是离子通道偶联受体。它们多为数个亚基组成的寡聚体蛋白,除有配体结合位点外,本身就是离子通道的一部分,并借此将信号传递至细胞内。信号分子同离子通道受体结合,可改变膜的离子通透性。

2.核受体(nuclearreceptor)

包括:甲状腺激素受体、类固醇激素受体、非类固醇激素受体和孤儿核受体。核受体与相应的配体及其辅调节因子相互作用,调控基因的协调表达,从而在机体的生长发育、新陈代谢、细胞分化及体内许多生理过程中发挥重要作用。

类固醇激素受体家族,包括糖皮质激素、盐皮质激素、性激素受体等。类固醇激素受体(除雌激素受体位于核内)位于胞浆,未与配体结合前与热休克蛋白(heatshockprotein,HSP)结合存在,处于非活化状态。配体与受体的结合使HSP与受体解离,暴露DNA结合区,激活的受体二聚化并转移入核,与DNA上的激素反应元件(hormoneresponseelement,HRE)相结合或与其他转录因子相互作用,增强或抑制靶基因转录。

甲状腺素受体家族,包括甲状腺素、维生素D和维甲酸受体等。受体位于核内,不与HSP结合,多以同源或异源二聚体的形式与DNA或其他蛋白质结合,配体入核与受体结合后,激活受体并经HRE调节基因转录。

2.1.3.3蛋白质激酶一主要的信号转换者

在蛋白质激酶的催化作用下,蛋白质可以发生可逆的磷酸化反应,是信号转导过程中的一个重要的调节机制。蛋白质激酶是一类磷酸转移酶,可以将ATP的?位的磷酸基转移到它们的底物上特定氨基酸残基上去。比如酪氨酸激酶是将底物的酪氨酸残基磷酸化。依据靶氨基酸的特异性分为:酪氨酸激酶(TIC)和丝氨酸/苏氨酸激酶(snq。

1.酪氨酸激酶(tyrosinekinase,TK)

酪氨酸激酶与肿瘤关系密切,正如前文所述,好多受体具有酪氨酸激酶功能,在多种癌症研究中发现酪氨酸受体激酶都存在过表达。酪氨酸蛋白激酶的分类:

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿瘤

1)受体型酪氨酸蛋白激酶(ReceptorProtin-TyrosineKinase,RPTK)

常见的RIrI'K受体有表皮生长因子受体01GVR)、血管内皮细胞生长因子受体(VEGFR)、胰岛素受体家族㈣、血小板衍生的生长因子受体(PooFx)家族等。受体型酪氨酸激酶主要要由四个部分组成:细胞外侧识别和结合配体的部位;螺旋状的跨膜结构镶嵌在胞膜的脂质结构中;细胞内侧的催化部位,催化底物蛋白的磷酸化,使细胞外信息传递至细胞内;位于羧基末端的肽链尾部的调节部位,可发生自身磷酸化,不同的受体间有着明显的差异,从而决定了识别底物的专一

性。

2)细胞质型非受体酪氨酸蛋白激酶

非受体型的蛋白质酪氨酸激酶包括以下几个亚族;Src、Tec、Csk、Fes、Abl、Syk/ZAP.70、Fak和JAK等。它们都有特别保守的结构域,例如SH2和SI-13同源域等,这些结构域在信号转导中起重要作用。这些PTKs或者直接与受体形成复合物,或者间接地依次被激活,在转导受体信号过程中起着接力棒的作用。最有代表性的是Src激酶家族,Src激酶家族是具有酪氨酸激酶(tyrosinekinase,ax)活性的蛋白质,包括Src、Yes、Fyn、Lck、Hck、Fgr、Blk和Lyn、Yrk等。其中前三种在大多数细胞中均有表达,Src在肿瘤中蛋白表达水平和活性均增高,且与疾病的进展和恶性程度相关。

2.丝氨酸/苏氨酸蛋白激酶(Serine/threoninekinase,sax)

是一大类特异地催化蛋白质的丝氨酸和苏氨酸残基磷酸化的激酶家族,参与多种信号转导过程。其中有代表性的如:

1)依赖cAMP的蛋白激酶(CAMP.dependentproteinldnase,APK)或称蛋白激酶A(ProteinkinaseA,PKA)

PKA由两个催化亚基C和两个调节亚基R所构成,PKA参与cAMP介导的转录水平调控。

2)依赖cGMP的蛋白激酶(CGMP-dependentproteinkinase,PKG)

主要有调节胞内钙离子的功能。

3)口+,磷脂依赖性蛋白激酶(ca2+phospholipid.dependentproteinldnase,Ca2+肌pK,或PKC)

可被ca2+,DAG和磷脂酰丝氨酸激活。PKC分子由N.端的调节区和C端催化区(亲水的蛋白激酶结构域)所组成。PKC有多种亚型(>12种)。PKC可激

信号通路相关文献挖掘与分析方法研究第2章信号通路与肿瘤活多种物质:受体,如EGFR、胰岛素受体、细胞因子受体等;细胞骨架蛋白,如Map、Tau;膜蛋白,如Na+.I-i+交换蛋白、ca2+.ATe酶等;核蛋白/转录因子。起始因子等;信号转导物如鸟苷酸环化酶,Raf-1等。

4)DNA依赖的蛋白激酶(DNA-dependentproteinkinase,DNA—Pl()

结合游离DNA片段后被激活。底物为核内DNA结合蛋白和转录因子,如SPI,Fos/Jun,Myc和I'53。参与DNA修复和重组;通过激活TF调节基因表达;参与细胞周期的检查点(Checkpoint)。

5)丝裂原活化的蛋白激酶(Mitogen-activatedproteinkinase,MAP硒,可磷酸化其它细胞质蛋白,并可从胞浆内转移至细胞核内调节转录因子的活性,是将信号传递至细胞核内的重要使者,参与细胞分化、增殖、死亡的全过程。

3.蛋白激酶的激活

配体激活蛋白激酶型受体

第二信使激活的STK

周期蛋白蛋白激活STK

CDKs家族是细胞周期启动和各时相转换中关键性的调节酶,CDKs单独没有活性,不同的CDK只有与特定的周期蛋白结合才能被激活。

通过磷酸化调节的蛋白激酶

蛋白激酶能通过对底物蛋白的磷酸化反应,调节底物的功能,它们自身的活性也可受磷酸化调节。蛋白激酶分子内或同种蛋白激酶间相互磷酸化,即自身磷酸化,这是蛋白激酶调节其活性的常见方式。异种激酶间的磷酸化,即一种酶作为另一种激酶的底物。这种酶促级联反应是细胞内信号转导的重要机制,如MAPK家族酶的激活方式。

当然还有其他的蛋白起信号转换作用,比如上文提到的G蛋白。G蛋白除了有信号转换作用以外,还能够通过第二信使放大信号。

2.1.3.4转录因子—效应蛋白的转录调控者

、细胞接受外界刺激,通过识别、筛选,转换成细胞内信号,激活相关信号转

导通路,引发细胞功能的变化。虽然细胞对外界的刺激的应答各式各样,引发的生物效应也是各不相同,但是追根溯源,细胞行为的改变多数是由于信号刺激下靶细胞内基因转录的激活而引发的的结果。基因的转录激活主要有以下两种方

本文来源:https://www.bwwdw.com/article/274m.html

Top