高血压相关基因和蛋白质数据库的初构_张其鹏
更新时间:2023-05-12 02:18:01 阅读量: 实用文档 文档下载
北京大学学报(医学版)
#178#
JOURNALOFPEKINGUNIVERSITY(HEALTHSCIENCES) Vol.34 No.2 Apr.2002
#论著#
高血压相关基因和蛋白质数据库的初构
张其鹏,张 丹,刘 贝,朱晓华,卢 铭,陈光慧,尚 彤,汤 建
(北京大学心血管研究中心,北京 100083)
[关键词]高血压;基因;蛋白质类;生物信息学;数据库,文献型
[摘 要]目的:构建高血压相关基因和蛋白质数据库,以促进高血压医学生物信息学的研究。方法:以GenBank、LocusLink、GDB、GenCard、Proteome等数据库作为信息数据来源;根据高血压相关信息的内容将数据库设计为基因、蛋白质和功能3部分;编写软件从上述信息资源中获取数据,分类整理,存入数据库,利用软件的管理和查询功能对于本地数据进行管理和检索。结果:经过OMIM、文献和相关数据库的检索,目前确定了431个高血压的相关基因,379个蛋白质;建立高血压相关基因和蛋白质数据库,并对其内容进行初步分析。最终实现了网上发布和查询。结论:通过整合现有相关信息,建立一个种类繁多、内容齐全与高血压相关的二级数据库,为高血压和心血管的研究提供一个新的便捷的生物信息查询的工具。
[中图分类号]R54411 [文献标识码]A [文章编号]1671-167X(2002)02-0178-06
v
Thepreliminaryconstructionofthedatabaseofhypertensionrelatedgenesandproteins
ZHANGQ-iPengv,ZHANGDan,LIUBei,ZHUXiao-Hua,LUMing,CHENGuang-Hui,SHANGTong,TANGJian
(InstituteofCardiovascularResearch,PekingUniversity,Beijing 100083,China)KEYWORDS SUMMARY
Hypertension;Gene;Protein;Bioinformatics;Database,bibliographic
Objective:ToconstracthypertensionRelatedGeneandProteinDatabaseandprovidea
usefulquerytoolfortheresearchofhypertensioninbiomedicalinformation.Methods:Dataarecollect-edfromdatabasessuchasGenBank,LocusLink,GDB,GenCard,andProteome.Anditemsoftheda-tabasearedividedinto3aspects:gene,proteinandfunction.Datawereclassified,andstoredintoda-tabasebyprogrammingandpublishedonweb.Results:Wefound431genesand379proteinstorelatetohypertensionfromOMIM,relatedarticlesanddatabases.Andthecontentsofdatabasewerealsoanalyzed.Conclusion:Acompleteandcontent-richdatabaserelatedtohypertensionhasbeencon-structed,providinganewandusefulbioinformaticsquerytoolforhypertensionandcardiovascularre-search.
[JPekingUniv(HealthSci),2002,34:178-183]
GenBank作为关于核苷酸以及蛋白质序列信息的主要数据库,为其他生物学数据库的建立提供了
[1]
丰富完善的资源。但因其内部信息的暴涨与冗余,用于解决生物信息学和分子生物学中特殊问题的数据子集越来越难以摘录。为适应医学和生物学的特殊需要,现已建立了各种二级数据库,如Online
MendelianInheritanceinMan(OMIM)、HugeIndex等。高血压是一个影响到公共健康的严重疾病,在
[2]
工业社会中有25%的成人患高血压,它是许多疾病发病和致死的主要危险因素,如中风、心肌损伤、充血性心力衰竭以及末期肾性疾病等
[3,4]
。近年
来,由于分子生物学和分子遗传学的发展,已经逐步
基金项目:国家重点基础研究发展规划项目基金(G2000056907)资助。SupportbytheMajorStateBasicResearchDevelopmentProgramofPeople.sRepublicofChina(G2000056907)
vCorrespondingauthoremail,zhang7peng@
张其鹏,等 高血压相关基因和蛋白质数据库的初构
#179#
认识到高血压是一个多基因参与的、环境和遗传因素相互作用引起的综合征或复杂疾病,而且发现了许多与血压调节和高血压发生相关的候选基因和致病基因,但其发病的确切分子生物学机制仍不十分明确。对高血压相关基因和蛋白质的数据亦缺乏系统的整理和分析。虽然Affymetrix公司和CaseWesternReserveUnviersity的Chakravarti实验室构建了HypertensionCandidateGeneSNPs(http:PgenomePcandidatesPsnps.html),但仅对116个高血压相关基因的单核苷酸多态性作了初步总结,缺乏全面、系统的归纳和分析。我们实验室在1999年亦构建了高血压相关基因数据库(http:PchromPdefault.htm),但仅有187个高血压相关基因,且其内容只包括了基因在染色体上的定位、相关的OMIM连接、基因与高血压发病的密切程度及相关文献,远不能反映高血压相关基因和蛋白质现代研究的水平。为进一步分析、总结高血压相关基因和蛋白质的研究成果,促进高血压医学生物信息学的研究,需要建立一个较完整、全面的高血压相关基因和蛋白质的数据库。1 方法与材料1.1 数据来源
高血压相关基因主要从OMIM和PubMed两个数据库中收集。从1995年12月至2001年6月,以/hypertension0为关键词对OMIM进行查询,可以得到257条结果,此中间共有174个与高血压相关的基因。从1985年1月~2001年6月间的PubMed中可收集到9290条与高血压相关基因的文献,其中涉及312个相关基因。此外,还收集了HypertensionCandidateGeneSNPs(http:PgenomePcandidatesPsnps.html)和高血压相关基因数据库(http:PchromPdefault.htm)中的高血压相关基因,总计203个。通过归纳、总结和分析,剔除重复的基因,共收集到431个与高血压相关的基因,并得到相对应的蛋白质379个。同时以美国国立生物技术信息中心(NationalCentreforBiotechnologyInformation,NCBI)、欧洲分子生物信息学实验室(EuropeanBioinformaticsInstitute,EBI)、美国国立图书馆(NationalLibraryofMedicine,NLM)等生物信息组织提供的数据库集群作为基因和蛋白质具体信息数据的来源。
1.2 数据库的构建、管理及Web发布(图1)1.2.1 开发环境
[6]
[7]
[5]
Server。
编程环境:操作系统采用Microsoftwindows2000server版;编程工具使用BolandDelphi5.0,
++
BolandCBuilder。
Web发布开发环境:MacromediaDreamUltra-Dev4.0,MicrosoftInternetInformationServer(IIS)5.0,MacromediaFireworks4.0。1.2.2 数据库构建
数据库总体上是基于关系数据库模式构建,共包括基因(genetable)、蛋白(proteintable)、序列(se-quencetable)、疾病(diseasetable)、动物模型(modelanimals)、单核苷酸多态性信息(singlenucleotidepolymorphismstable,SNPstable)、参考数据库(crossreference)、参考文献(reference)等8个实体表以及9个描述它们之间关系约束的关系表,详见图1。
基因表(genetable)包含了基因的6项属性:标识(Symbol,采用HUGOGeneNomenclatureCom-[8]
mittee制定的标准)、名称(name)、别名(alias)、其他常用标识(alternatesymbols)、染色体定位(loca-tion)、功能描述(functiondescript)、表型(phenotype)等。以GeneID作为主码。
蛋白表(proteintable)包含了蛋白名称(proteinname)、蛋白分类(classification)、蛋白描述信息(pro-teindescript)及2DPage、3Dimage等信息。蛋白分类信息主要包括相关受体、信号传递、相联系的蛋白质、蛋白细胞定位、生理功能、进化中的作用等,此类信息主要由GeneOntology中获得,并以此对蛋白质的功能进行分类。为描述蛋白间相互作用,还定义了interactionPID属性记录与该蛋白发生相互作用的蛋白记录的ID。
序列库(sequence)主要收集了数据库中包含基因的相关序列。对于每一条序列有GI号、所属基因标识(symbol)、序列分类及序列Fasta文件。序列种类分为核酸序列和蛋白序列,两者再各自分为参
[10]
考序列(Ref)、模式序列(mode)和同源序列(re-lated)。
SNPs信息(SNPstable)主要收集了数据库中包含基因的相关的SNPs的信息,包括形式(mode,如A73T)和SNPs出现频率(frequency)属性。由于SNPs对药物易感性、疾病易感性、生物进化、突变等的重要作用,本数据库专门收集了相关基因SNPs
[11]
的资料,包括NCBI的SNPs数据库、高血压相关SNPs数据库和HGBASE数据库的资料[12]
[9]
,其中有
北京大学学报(医学版)
#180#
JOURNALOFPEKINGUNIVERSITY(HEALTHSCIENCES) Vol.34 No.2 Apr.2002
疾病表(diseasetable)主要是基于OMIM的数据信息,收录了相关遗传病的信息。包括疾病名称(name)和描述(diescript)。
动物模型(modelanimals)主要收集了转基因小鼠模型的信息,其数据从TBASE数据库和Jackson实验室的商用数据库中获得。
参考数据库(crossreference)收集了数据库中
包含基因蛋白的有关信息原始出处的链接,包含了LocusLink、PubMed、OMIM、Homologene
[14]
[15]
[16]
[13]
、Unige-[17]
ne、GDB、Proteome、SNPs、HGMD
[18]
nCard等数据库的查询链接信息。
、Ge-
参考文献(reference)收录了相关文献的信息,包括标题(title)、摘要(abstract)、作者(author)和作者地址(address)
等属性。
图1 数据库结构及网上发布
Figure1 Structureofdatabaseandwebpublishing
1.2.3 数据库的管理和维护 为保证数据的时效性,我们编写了程序运用Microsoft的SQL-Server
数据库管理平台进行数据库的更新、维护管理。定期运行程序从Internet获得相关的信息更新数据库。
1.2.4 数据库的Web发布 运用ASP技术实现Web网页和服务器端数据库数据绑定,动态生成查
询界面。用户可根据自己的要求按照基因的名称、标识、功能、表型、染色体定位、疾病、症状等多方面进行查询。
张其鹏,等 高血压相关基因和蛋白质数据库的初构
#181#
2 结果
2.1 数据库的内容与发布()
到2001年6月29日为止,高血压相关基因和蛋白质数据库中包括有431个基因,379个蛋白质,33个数据项,可通过关键词、染色体图和功能等方面查询数据。在431个基因中,致病基因34个,密切相关基因140个,候选基因256个。在379个蛋白质中,已知功能362个。
2.2 高血压相关基因在染色体上的分布
根据本数据库数据统计结果,高血压相关基因
在染色体上分布如图2所示,可以看出,高血压相关基因在染色体上的分布是不均匀的。其中高血压相关基因在1号染色体上分布得最多,其次为2号、11号和17号。在人Y染色体上未见高血压相关基因;但已知SHR大鼠的Y染色体、人Y染色体与血压调控相关,可能是通过影响交感神经的活动起到调节血压的作用,有可能在Y染色体上存在着交感神经活动相关基因,间接影响血压的调控。不同的染色体上高血压相关基因所占的密集程度不同,21号染色体高血压相关基因密集度最高,为4.85%;其次为22号染色体,占1.90%
。
[19,20]
图2 高血压致病相关基因在染色体上的分布
Figure2 Distributionofhypertensionrelatedgenesonchromosome
从染色体区域分布上可知,19p13.1-19p13.3含有高血压相关基因最多,它含有KCNN1、PT-GER1、LDLR、TBXA2R、INSR、EPOR、ICAM1、ICAM3基因。其中INSR基因为高血压致病基因;19q13.1-19q13.3这段亦为高血压密切分布区域,它含有RYR1、ATP1A3、CYP2A7、APOC1、APOC2、APOC4、TGFB1、RAI、KLK1、KLK2、KLK3、GYS1、TNNT1基因,其中KLK1为致病基[22,23]因,RYR1、TGFB1、GYS1为密切相关基因;另外,1p13同样为高血压密集分布区域,它含有ATP1A1、HSD3B1、HSD3B2基因,其中ATP1A1为密切相关。有一些区域虽然是高血压相关基因分布的密集区,但至今尚无文献报道,在此区域有与高血压密切相关基因的存在,如7q21.1-21.3、11q13。了解高血压相关基因在染色体上密集的分布,进一步连锁分析,可以更有目标地指导我们去发现和寻[21]
2.3 种属差异
在本数据库内收录的小鼠高血压相关基因有286条,大鼠高血压相关基因有241条。高血压相关基因在大鼠染色体上主要分布于1、4、8、10号染色体上,在小鼠的染色体上主要分布于1、6、7、8、11号染色体上。已知大鼠10号染色体与人染色体的
[24]
17q同源,17q上又有高血压相关基因密集的区域,可以通过进一步研究大鼠的10号染色体,找出更多更准确的与高血压密切相关基因。高血压相关基因在不同种属中的分布是不同的,这是因为在进化过程中,不同种属的进化方向不一样所引起的,因此了解模型动物与人基因同源的位点,就可以通过模型动物来研究确定高血压相关基因。2.4 单核苷酸多态性
本数据库以HGBASE数据库为基础分析高血压相关基因的SNPs,在所收集的431个基因中,有,
北京大学学报(医学版)
#182#
JOURNALOFPEKINGUNIVERSITY(HEALTHSCIENCES) Vol.34 No.2 Apr.2002
个SNPs,共计含有2242个SNPs变化,其中SNPs变化最多的为COL1A2、ACE、LPL基因,其SNPs数目分别为52、93、97。但这些SNPs变化的意义尚不十分了解,还需要继续收集和整理。在所收集的基因中,有201个基因尚无SNP的报告,亦需进一步的研究。在这些基因中,一些基因的多态性变化与高血压的发生密切相关,如AGT启动子的突变)))G-A(-6)影响了大鼠AGT基因的转录,与原发性高血压的发生密切相关
[25]
的广泛重视。本工作在原高血压相关基因数据库()的基础上,率先建立了高血压相关基因和蛋白质数据库,
它所收集的基因和蛋白质种类较多、内容全、具有33项栏目和14个网上接点,远远超过原高血压相关基因数据库的项目和范围,为高血压和心血管的研究提供了一个新的便捷的生物信息查询工具。
本数据库采用了名称、染色体定位和功能3种查询和发布方式。不仅可以更方便进行数据查询,而且将基因、蛋白质的结构、序列、定位与功能联系起来,可以从血压调节机制和发病方面进行基因和蛋白质基本数据的查询。可以更好了解查询基因在血压调控和高血压发病中的意义。这是医学生物学数据库查询和发布方式的新尝试。
本数据库以基因这一生命活动的原始编码为重点,同时建立了相关蛋白质的数据库。但是与基因数据库相比,蛋白质数据相对匮乏。这主要是因为有关蛋白质和蛋白质组的研究相对落后,缺少材料所致。特别是蛋白质相互关系、蛋白质与基因关系、蛋白质合成、代谢、调节、变异和功能的数据,需要不断扩展、补充和更新。
确定与高血压的相关性应该是收录高血压相关基因的重点,但目前对相关性尚缺乏统一的标准。转基因动物尤其是基因剔除的数据是判定基因功能和相关性最可靠的依据,但目前基因导入和剔除的数据尚少。OMIM采用遗传相关性,作为高血压相关的指征,但又缺乏转基因的材料。因此,鉴定高血压相关性是本数据库最大的难点和重点。为此,我们查询了PubMed和OMIM数据库内有关高血压与基因、高血压与cDNA、高血压与遗传的所有文献与资料,最终确定了431个高血压相关基因。其中以高血压相关度分为高血压致病基因、密切相关基因和相关基因(血压调控基因)3个等级。致病基因是有遗传连锁性和转基因资料证明的,只有34个;密切相关基因为仅有遗传连锁分析的基因,共有140个;其余为相关的血压调节基因。随着疾病基因科学的研究进展和基因剔除资料的丰富,基因与高血压的相关性将更为确切和完善。
参考文献
1BensonDA,BoguskiM,LipmanDJ,etal.GenBank[J].Nucleic
;在原发性肺性高血压
中,发现许多BMPR2的SNPs改变,如SER73TER(218位,C-G)、355A(355位,缺失T)、2579T(外显子12,ATT-AT)、ARG899TER(2695位,C-T)等
[26]
,提示BMPR2的SNPs改变与原发性肺性高
[27]
血压关系密切;而Rogoff等发现HSD11B2的213编码子变化(CGC-TGC)与高血压引起的盐皮质激素增多相关。2.5 功能分类
本数据库所收集的高血压相关基因按proteome功能分类,可有生化功能(biochemicalfunction)和细胞作用(cellularrole)两种分类方式:在biochemicalfunction中,主要表现为receptor、transporter、ligand、hydrolase和transferase,分别有90、60、43、38和20个基因;在cellularrole中,主要为signaltransduc-tion、metabolism、smallmoleculartransport的基因,分别有156、69和63个基因;为PolIItranscription和proteinmodification的蛋白计有18和19个,但作用为DNArepair和DNAsynthesis的基因较少,分别只有5个和3个。说明高血压的发生可能主要与信号传导、物质代谢、转录调节和蛋白质的修饰有关。2.6 表达谱
高血压相关基因几乎在人体内各个部位均有表达,但在肾、肺、脑、心脏等处的表达最多,在喉、淋巴结等处分布很少。这可能与这些组织和器官在血压调节中的作用有关。在所收集的431个高血压相关基因中,有96.1%基因广泛分布于人体内各个器官中,仅有3.9%的基因只存在于一种组织器官中,它们是ADRA1A、PRKG2、MC2R、NPPC、GUCA2B、HSD3B2等基因。说明血压的维持、调节和高血压的发生,需要体内多种器官共同参与。3 讨论
数据库的建立和应用是现代生物信息学的一个重要方面,是进行基因、蛋白质、功能和生理病理意AcidsRes,1999,27:12-17
2BurtVL,WheltonP,RoccellaEJ,etal.Prevalenceofhyperten-sionintheUSadultpopulation.Resultsfromthethirdnationalhealthandnutritionexaminationsurvey,1988-1991[J].Hyper-i
张其鹏,等 高血压相关基因和蛋白质数据库的初构
3MosterdA,D.AgostinoRB,SilbershatzH,etal.Trendsintheprevalenceofhypertension,antihypertensivetherapy,andleftven-tricularhypertrophyfrom1950to1989[J].NEnglJMed,1999,340:1221-1227
4KannelWB.Elevatedsystolicbloodpressureasacardiovascularriskfactor[J].AmJCardiol,2000,85:251-255
5RichardP,DavidS.Molecularmechanismsofhumanhypertension[J].Cell,2001,104:545-556
6McKusickVA.Mendelianinheritanceinman.catalogsofhumangenesandgeneticdisorders[M].12thEdn.Baltimore,MD:TheJohnsHopkinsUniversityPress,1998.255-287
7DavidL,WheelerDeannaM.Databaseresourcesofthenationalcenterforbiotechnologyinformation[J].NucleicAcidsRes,2001,29:11-16
8KnightJ,GardnerGT,ClarkAJetal.Investigationofchromo-some17qasalocusforhumanessentialhypertensioninAfricanCar-ibbeans[J].JHumHypertens,2000,14(6):385-387
9AshburnerM,BallCA.Geneontology:toolfortheunificationofbiology.thegeneontologyconsortium[J].NatGenet,2000,25(1):25-29
10PruittK,MaglottD.RefSeqandLocusLink:NCBIgene-centered
resources[J].NuclAcidsRes,2001,29:137-140
11SherryST,WardMH,KholodovM,etal.dbSNP:TheNCBI
databaseofgeneticvariation.[J].NucleicAcidsRes,2001,29:308-311
12AnthonyJB,HeikkiL,MarianneS,etal.HGBASE:adatabase
ofSNPsandothervariationsinandaroundhumangenes[J].NuclAcidsRes,2000,28:356-360
13ZhangZ,SchwartzS,WagnerL,etal.AGreedyAlgorithmfor
AligningDNASequences[J].JCompBiol,2000,7(1-2):203-214
14SchulerGD.Piecesofthepuzzle:expressedsequencetagsandthe
catalogofhumangenes[J].JMolMed,1997,75(10):694-69815LetovskySI,CottinghamRW,PorterCJ,etal.GDB:thehuman
genomedatabase[J].NuclAcidsRes,1998,26:94-9916CostanzoMC,CrawfordME,HirschmanJE,etal.YPDTM,
PombePD
TM
#183#
tabase-Abiomedicalinformationandresearchresource[J].HumanMutation,2000,15(1):45-51
18RebhanM,Chalifa-CaspiV,PriluskyJ,etal.GeneCards.Anov-elfunctionalgenomicscompendiumwithautomateddataminingandqueryreformulationsupport[J].Bioinformatics,1998,14:656-664
19ElyD,CapleaA,DunphyG,etal.Spontaneouslyhypertensiverat
Ychromosomeincreasesindexesofsympatheticnervoussystemac-tivity[J].Hypertension,1997,29:613-618
20EllisJA,StebbingM,HarrapSB.AssociationofthehumanY
chromosomewithhighbloodpressureinthegeneralpopulation[J].Hypertension,2000,36(5):731-733
21AbeH,YamadaN,KamataK,etal.Hypertension,hypertrig-lyceridemia,andimpairedendothelium-dependentvascularrelax-ationinmicelackinginsulinreceptorsubstrate-1[J].JClinInvest,1998,101(8):1784-1788
22WangJ,XiongW,YangZ,etal.Humantissuekallikreininduces
hypotensionintransgenicmice[J].Hypertension,1994,23:236-243
23MaJX,YangZR,ChaoJ,etal.Intramusculardeliveryofratka-l
likrein-bindingproteingenereverseshypotensionintransgenicmiceexpressinghumantissuekallikrein[J].JBiolChem,1995,270:451-455
24BaimaJ,NicolaouM,SchwartzF,etal.Evidenceforlinkagebe-tweenessentialhypertensionandaputativelocusonhumanchromo-some17.[J].Hypertension,1999,34:4-7
25InoueI,NakajimaT,WilliamsCS,etal.Anucleotidesubstitution
inthepromoterofhumanangiotensinogenisassociatedwithessen-tialhypertensionandaffectsbasaltranscriptioninvitro[J].JClinInvest,1997,99:1786-1797
26LaneKB,MachadoRD,PauciuloMWetal.Heterozygousgerm-linemutationsinBMPR2,encodingaTGF-betareceptor,causefa-milialprimarypulmonaryhypertension[J].NatureGenet,2000,26:81-84
27RogoffD,SmolenickaZ,BergadaI,etal.Thecodon213ofthe
11beta-hydroxysteroiddehydrogenasetype2geneisahotspotformutationsinapparentmineralocorticoidexcess[J].JClinEndocr-inolMetab,1998,83(12):4391-4393
(2001-08-28收稿)
,andWormPD
TM
:modelorganismvolumesofthe
BioKnowledge?library,anintegratedresourceforproteininforma-tion[J].NuclAcidsRes,2001,29(1):75-79
17KrawczakM,BallEV,FentonI,etal.Humangenemutationda-
(本文编辑:王 蕾)
本刊关于增加英文脚注信息的通知
为完善英文信息,促进国际交流,提高刊物质量,本刊自2001年起,将中文脚注中的基金项目等信息同时给出英文,附于中文之后。并增加责任作者的电子邮件地址。向本刊投寄中文稿件时增加此两项内容。
本刊编辑部
正在阅读:
样品制备(溶胶-凝胶法)03-19
江苏射阳“山寨银行”调查07-19
法硕(非法学)备考策略:基础阶段学习计划与学习建议10-12
2018年无形资产的运营与审计策略-实用word文档(3页)11-29
对电厂化学水处理的点滴探讨05-04
车身与附件系统 - 图文06-09
妊娠各期保健要点03-06
汽车识图期末试卷+答案11-27
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 蛋白质
- 基因
- 高血压
- 数据库
- 相关
- 张其鹏