蛋白质3D建模,酶与底物分子模拟对接 autodock - 图文
更新时间:2023-11-07 20:04:01 阅读量: 教育文库 文档下载
- 酶的底物都是蛋白质吗推荐度:
- 相关推荐
摘要
多环芳烃(polycylic aromatic hydrocarbons,PAHs)是一类典型的芳香烃类有机污染物,其种类繁多,常见的共有16种。近年来多环芳烃的污染已经引起人们的高度重视,随着对PAHs 微生物降解研究的深入,已经发现大量在耗氧条件下对四环以下PAHs有降解能力的细菌,但微生物对五环及五环以上PAHs的降解能力较低,为了提高菌群的PAHs底物范围,对其降解途径中的关键酶进行分子改造具有非常重要的意义。萘双加氧酶(Naphthalene dioxygenase,NDO)是多环芳烃降解途径中的关键酶,。本论文通过计算机模拟的方式研究不同来源的萘双加氧酶与多环芳烃的相互作用规律,考察影响其活性中心口袋大小的关键氨基酸,为使用定点突变等基因工程技术提高萘双加氧酶的降解效率提供参考。本实验从数据库下载了9种来源不同的萘双加氧酶的α 亚基氨基酸序列,采用3种方式进行同源建模,经过3种方法对模型进行评价,选取质量最好的一组模型与16个PAHs分子进行对接。通过比较这些不同菌种来源的NDO与PAHs的对接结果,寻找影响其相互作用的关键氨基酸。实验结论如下:通过同源模建及模型评价,发现工具Phyre2获得的模型质量相对较好;使用Autodock Tools(ADT)将模型与PAHs进行对接后获得了不同来源NDO与PAHs相互作用的特征曲线,PAHs环数的多少会显著影响NDO与PAHs的结合能力;通过对对接结果的统计,发现来自Rhodococcus sp.的萘双加氧酶(Q9X3R9)和PAHs的结合能最低,结合能力最强。通过统计9种不同来源的NDO活性中心18个氨基酸的突变情况和偏移量发现,相对于实验室的JM-2序列,比较保守的氨基酸包括N205、F206、D209、H212、H217、G255、V264、D368、G208。而这些不同来源的BDO活性中心氨基酸组成差异主要发生于V213、L257、H301、N303、T316、L364、A412七个位置,其变异性较强,结构位置不稳定,对七个氨基酸进行改造,增大NDO的活性口袋,能增强酶对高环PAHs的结合能力,为NDO的分子改造提供参考。。
关键词:萘双加氧酶;同源建模;分子对接;活性中心;蛋白设计
Molecular simulation of the interaction of naphthalene dioxygenase and
polycylic aromatic hydrocarbons
Abstract
Polycyclic aromatic hydrocarbons (PAHs) are a class of typical aromatic hydrocarbons organic pollutants which include 16 common congeners. In recent years,pollution due to PAHs has aroused great attention, as the research of biological degradation of PAHs presently, lots of microbe strains have been found with different abilities of degrading PAHs. Naphthalene dioxygenase (NDO) is a key enzyme in biologically degrading of PAHs. It can oxygenate a benzene ring of polycyclic aromatic hydrocarbons, and then metabolizes PAHs with the synergistic effect of other enzyme. In this paper, we mainly research molecular simulation of the interaction of naphthalene dioxygenase and polycylic aromatic hydrocarbons. We expect to understand the key animo acids in the active pocket. which can serve as a reference to improve the degradation efficiency of NDO using Site-direct mutagenesis or other gene engineering technology in the future. Results: in this experiment, we first download many amino acids sequences of α-subunit of Naphthalene dioxygenase derived from different strains and obtained 3D models by homology modeling, then chose the best model through different model assessing methods and ran molecular docking with 16 PAHs congeners. Conclusion:Through homology modeling and model assessing, the quality of model created by Phyre2 are found better; According to the docking results of model with PAHs using Autodock Tools(ADT), we draw the characteristic curve of interaction between PAHs and NDO which derived from different strains, and it reveals the numbers of the benzene ring observably effect on the combination; By the statistics of the docking results we find that the NDO(Q9X3R9) which from Rhodococcus sp. has the minimum bind energy and strongest affinity. make observably effect on the combination; We align the 9 models of NDO derived from different strains to the template 2BMQ_A and measure the shift distance of the 18 residues in the active site, the conservative amino acid N205, F206, D209, H212, H217, G255, V264, D368, G208, their conformations are conserved. However, compared to the NDO which from our lab JM-2, the main difference of NDO derived from different strains focus on seven sites V213、L257、H301、N303、T316、L364、A412 in the active site. If the active pocket became bigger after the mutagenesis of the seven sites, the substrate-binding ability of the enzyme would trend to improve. Finally, some mutagenesis according to the active center amino acids arranged of mod6(Q9X3R9) are made in order to enhance the catalytic ability of the Lab naphthalene dioxygenase(JM-2).
Keyword: Naphthalene dioxygenase; homology modeling; dock; active sites; mutation
目录
摘要 ..................................................................................................................................... I Abstract ............................................................................................................................. II 1.文献综述 ......................................................................................................................... 2 1.1微生物降解多环芳烃的研究现状 .............................................................................. 2
1.1.1 多环芳烃的理化性质 ...................................................................................... 2 1.1.2 PAHs降解菌株的来源 ..................................................................................... 3 1.1.3主要的萘双加氧酶的种类 ............................................................................... 3 1.1.4 萘双加氧酶对PAHs降解情况 ....................................................................... 6 1.2同源建模发展情况 ...................................................................................................... 7
1.2.1同源建模的意义 ............................................................................................... 7 1.2.2同源建模的概念 ............................................................................................... 8 1.2.3 同源建模的一般流程 ...................................................................................... 8 1.3 蛋白质和蛋白质结构数据库 ..................................................................................... 9
1.3.1蛋白质结构数据库 ........................................................................................... 9 1.3.2蛋白质数据库 ................................................................................................. 10 1.4序列比对 .................................................................................................................... 11
1.4.1 序列对比的意义 ............................................................................................ 11 1.4.2原理和方法 ..................................................................................................... 11 1.4.3 算法和工具 .................................................................................................... 12 1.5 分子对接 ................................................................................................................... 13
1.5.1历史背景 ......................................................................................................... 13 1.5.2原理和方法 ..................................................................................................... 13 1.5.3 对接工具 ........................................................................................................ 14 2.萘双加氧酶的序列比对 ............................................................................................... 15 2.1实验材料和方法 ........................................................................................................ 15 2.2 实验结果与讨论 ....................................................................................................... 15 2.3 小结 ........................................................................................................................... 16 3. 萘双加氧酶的同源建模 ............................................................................................. 17 3.1建模工具 .................................................................................................................... 17 3.2 实验结果与讨论 ....................................................................................................... 17 3.2.1萘双加氧酶模板筛选 ............................................................................................. 17 3.2.2萘双加氧酶的同源建模 ......................................................................................... 19 3.2.3模型评价 ................................................................................................................. 19
3.3 小结 ........................................................................................................................... 20 4. 萘双加氧酶与PAHs的分子对接 .............................................................................. 21 4.1实验准备 .................................................................................................................... 21
4.1.1分子对接工具准备 ......................................................................................... 21 4.1.2 PAHs分子构建与优化 ................................................................................... 21 4.1.3初始模型的修饰 ............................................................................................. 21 4.2预对接 ........................................................................................................................ 22 4.3优化后对接 ................................................................................................................ 22 4.4数据整理与分析 ........................................................................................................ 23
4.4.1 预对接结果 .................................................................................................... 24 4.4.2 优化后对接结果 ............................................................................................ 26 4.4.3 优化前后的实验结果对比 ............................................................................ 28 4.5 小结 ........................................................................................................................... 29 5.蛋白设计 ....................................................................................................................... 31 5.1质心和C到Fe距离分析 ......................................................................................... 31 5.2氨基酸突变 ................................................................................................................ 34
5.2.1突变过程 ......................................................................................................... 34 5.2.2结果验证 ......................................................................................................... 41 5.3作出假设 .................................................................................................................... 45 5.4小结 ............................................................................................................................ 46 6. 结论与展望 ................................................................................................................. 48 6.1 实验结果讨论 ........................................................................................................... 48 6.2 展望 ........................................................................................................................... 48 参考文献 .......................................................................................................................... 49
前言
多环芳烃(Polycyclic Aromatic Hydrocarbons PAHs)是一类含有两个或两个以上苯环或者杂环的有机化合物。是煤、石油、烟草、木材等有机物在不完全燃烧产生的状态下都能够产生多环芳烃。产生的多环芳烃对土壤、空气和水体造成污染,由于这类物质具有脂溶性的特点,水溶性很差,几乎不能自然降解,即使极低浓度的污染物经年累积,也会达到有害浓度。同时,由于多环芳烃能够通过食物链或者直接被人体摄入,尤其是大环多环芳烃,如苯并芘【α】和苯并【α】蒽,具有极强的致癌性。
近年来,有关对PAHs污染土壤的修复问题一直是研究热点。修复PAHs污染一般有物理、化学、生物的方法,其中生物降解法具有环保、花费较低和不会造成二次污染的优势,被认为是最具有前景的PAHs污染方法。在多环芳烃的降解过程中有一种至关重要的酶---萘双加氧酶。萘双加氧酶是一个多组分酶系统,包括由phnAc和phnAd组成的铁硫蛋白酶,由phnAa构成的还原酶(reductase)和phnAb构成的铁氧化还原酶(ferredoxin)。还原酶组分从NAD(P)H中释放电子,然后把电子转移到铁氧化还原酶。铁氧化还原酶然后再将电子转移到加氧酶。最终,加氧酶组分负责催化PAHs的双羟基化反应。其中,加氧酶组分phnAc(α)和phnAd(β),是α3β3的四级结构,六聚体,蘑菇状。3个大亚基构成蘑菇的伞盖,3个小亚基构成蘑菇的伞柄。phnAc作为α亚基包含两个区域:Rieske区域和催化区域。Rieske区域中心是由2个Fe和2个S构成,其中一个Fe和His82、His103配位,另一个和Cys80、Cys100配位。催化区域活性中心由1个Fe构成,这个Fe与三个保守残基His207、His212和Asp360配位相连。而phnAd(β)作为小亚基,它的主要作用是稳定结构。
Rieske 加氧酶系统是催化PAHs降解的关键步骤---苯环的加氧,所以微生物降解PAHs的能力很大程度上取决于萘双加氧酶的催化活性。并且萘双加氧酶的催化产物顺式二醇也是很重要的工业原料。本文通过序列对比和同源模建,构建出萘双加氧酶的三维结构,研究不同菌种来源的萘双加氧酶与PAHs的相互作用,寻找其活性中心起关键作用的氨基酸,为萘双加氧酶的分子改造提供依据和参考。实验方案为:从数据库下载了9种不同菌种来源的萘双加氧酶的α亚基氨基酸序列,进行同源建模,经过不同方法评价,选取结果最好的一组模型和16个PAHs同类物进行分子对接,分析对接结果,寻找影响其相互作用的关键氨基酸。并以提高酶对PAHs的底物范围为目的,依据酶与底物的作用规律对实验室的酶进行分子改造,为NDO的定向改造提供参考。
1.文献综述
1.1微生物降解多环芳烃的研究现状
1.1.1 多环芳烃的理化性质
多环芳烃(Polycyclic Aromatic Hydrocarbons PAHs)是一类含有两个或两个以上苯环或者杂环的有机化合物。是有机物在不完全燃烧产生的状态下产生的是一种重要的环境污染物,迄今发现有200多种,常见的一共是16种,如图1.1。其中有相当部分具有致癌性,如苯并[α]芘、苯并[α]蒽等。PAHs分布广泛,且由于结构的差异和环数的差异,使得他们在理化性质和环境毒性方面有很大的差别,一般为固体,易升华,熔点较高(萘为80℃),沸点更高(萘为218℃),且随着环数的增加而增加。水溶性较差,极具脂溶性。此外,PAHs在生物体内有很强的积聚性,并能通过食物链富集,是强烈的致癌剂。
图1.1 常见的多环芳烃(PAHs)结构 Fig1.1 structure formula of common PAHs
1.1.2 PAHs降解菌株的来源
目前发现的能降解PAHs的生物种类包括细菌、真菌、藻类和植物等。其中研究较为成熟的降解PAHs的主要细菌有假单胞菌属,鞘氨醇单胞菌属和红球菌属,另外还包括:Pseudomons fluoresens;Mycobacterium sp; Haemophilus sp; paenibacillus sp. 在耗氧条件下参与降解的主要酶类包括双加氧酶,脱氢酶,异构酶、醛缩酶等。其中的关键酶是第一个双加氧酶-萘/菲双加氧酶 [1]。
1.1.3主要的萘双加氧酶的种类
微生物的萘双加氧酶为Rieske型萘双加氧酶。其催化PAHs降解反应的第一步——苯环的加氧,是整个降解反应的限速步骤,因此细菌的降解能力很大程度上决定于萘双加氧酶的催化活性。萘双加氧酶利用一分子氧,在还原型辅酶NAD(P)H辅助下,催化底物双加氧形成顺式二醇。反应方程式如下:
Naphthalene + NAD(P)H + H++O2 (+)-cis-(1R,2S)-dihydroxy-1,2-dihydronaphthalene + NAD(P)+
整个酶系统包括三个组分:由phnAc和phnAd组成的末端氧化酶,由phnAa构成的铁氧化还原蛋白还原酶和phnAb构成的铁氧化还原蛋白。铁氧化还原蛋白还原酶首先将NAD(P)H 氧化成NAD(P)+,将捕获的两个电子储存在核黄素上,随之发生构像的变化,并先后与2个铁氧化还原蛋白形成电子传递复合体,当铁氧化还原蛋白还原酶将电子传递给铁氧化还原蛋白的[Fe-S]中心后,铁氧化还原蛋白发生构像变化,与铁氧化还原蛋白还原酶分离,转而与末端氧化酶发生作用,将电子传递到末端氧化酶的[Fe-S]中心,最后电子经过单核铁催化中心,在末端氧化酶的作用下,消耗一个氧分子,实现底物的双加氧作用,生成带有羟基的化合物。其中,加氧酶组分phnAc(α)和phnAd(β),是α3β
3
的四级结构,六聚体,蘑菇状。3个大亚基构成蘑菇的伞盖,3个小亚基构成
蘑菇的伞柄(图1.2)。phnAc作为α亚基包含两个区域:Rieske区域和催化区域。Rieske区域中心是由2个Fe和2个S构成,其中一个Fe和His82、His103配位,另一个和Cys80、Cys100配位。催化区域活性中心由1个Fe构成,这个Fe与三个保守残基His207、His212和Asp360配位相连。而phnAd(β)作为小亚基,它的主要作用是稳定结构[2]。
目前已报道的有晶体结构的NDO来自假单胞菌Pseudomonas sp. NCIB 9816-4和Rhodococcussp strain NCIMB12038,他们的关键氨基酸和晶体结构类似,本论文以NCIB 9816-4为例,描述该类酶的结构特点:
图1.2 萘双加氧酶的α3β3六聚体晶体结构 [1]
Fig1.2 Crystal structure of naphthalene dioxygenase α3β3 hexamer [1]
A B
Fig1.3 Mononuclear iron catalytic domain (A) and Rieske [2Fe-2S] center (B) in crystal structure of
naphthalene dioxygenase α3β3 hexamer [1]
图1.3 萘双加氧酶的α3β3六聚体晶体结构中的单核Fe催化中心和(A)Rieske [2Fe-2S]中心(B)[1]
① Rieske [2Fe-2S] 结构域:由4个β折叠(3~15β折叠片)构成。
两个β折叠成三明治,夹在β14-β15-β3和β13-β6-β5之间。两个发卡结构,卡住[2Fe-2S]中心。第一个由 β7、β8形成,第一个Fe离子配基在loop中(β7、β8) 第二个由β10、β11、β12形成,第二个Fe离子配基在β10、β11之中。配位基团:Fe1是由Cys81和Cys101配位。Fe2是由His83和His104配位(图1.3B)。
② 催化结构域
是由9股反向平行的β股折叠构成。β折叠的顺序从帽子顶开始是24-25-17-18-19-20-21-22-16。且折叠股之间有密切的联系。活性中心的Fe是由His208、His213和Asp362、H2O形成配基(图1.3A)。形状类似于一个歪曲的八面双锥体,且丢失了一个配基。Asn201是一个状态不稳定的配基,与底物结合的时候消失,构象变化。 一个α亚基和另一个α亚基之间通过氢键和Asp205进行电子传递。 ③活性中心布置
活性中心到酶表面由一道峡谷,即活性中心的入口。Gorge上方有两个环状结构,掩盖了部分入口。通道最窄的的地方包括两个组氨酸和Asn201,Phe202和Phe352,并且都是疏水氨基酸。Fe下方的活性中心口袋线性排列着Asp316、Val326、Asn363、Met366、Tyr103和一个保守的盐桥在Lys314和Glu359之间。在Gorge上方有残基Ala206、Val209、Leu217、Asn297、Leu307和Trp358。催化活性中心的Fe2+是通过Rieske 中心从铁氧化还原蛋白获得电子再生[3]。
Rhodococcussp strain NCIMB12038与Pseudomonas sp. NCIB 9816-4同源性仅为30%,但NCIMB12038也包括两个金属中心,Rieske domain和活性中心,铁原子的配位基团类似,且除表1.1所示几个关键氨基酸不同外,其它关键氨基酸皆相同。另外,二者结构最大的区别是NCIB 9816-4的N-端是meandering loop,C-端是α螺旋,而NCIMB12038的N-端是α螺旋,C-端是无α螺旋[4]。
表1.1 Rhodococcussp strain NCIMB12038与Pseudomonas sp. NCIB 9816-4萘双加氧酶的不同
关键氨基酸[4]
Table 1.1 the Amino acid difference in the catalytic domain between Rhodococcussp strain NCIMB12038
and Pseudomonas sp. NCIB 9816-4[4]
Pseudomonas sp. NCIB 9816-4
V209 F307 F368 H295
Rhodococcussp strain NCIMB12038
T217 L307 W358 N297
另外,目前已经获得晶体结构且同属于Rieske型双加氧酶的来自于鞘氨醇单胞菌属Sphingobium yanoikuyae B1的联苯双加氧酶和Pseudomonas sp. NCIB 9816-4的相似度为43.5%,但由于活性中心入口处周围侧链的差异,导致其底物入口变大;并且在形成的活性中心的21个残基中,有六个残基不同(表1.2),使其活性中心容积变大。这些结构差异导致Sphingobium yanoikuyae B1能催化五个苯环的大的多环芳烃化合物,且能利用联苯或多环芳烃萘、菲、蒽作为它们的唯一碳源。
表1.2 Sphingobium yanoikuyae B1与 NCIB 9816-4相比活性中心氨基酸差别[5]
Table 1.2 the Amino acid difference in the catalytic domain between Sphingobium yanoikuyae B1 and
NCIB 9816-4[5]
NDO-OB1 NDO-P Thr308 Ser310 Leu356 Trp358 Phe224 Leu223
Phe235离活性中心较远;Leu223的侧链体积小。Ros的活性中心入口类似一个倒置的漏斗,一个狭窄的孔通往一个宽阔的大厅[5]。 1.1.4 萘双加氧酶对PAHs降解情况
通过对NDO-P 降解PAHs 数据的了解,我们可以充分了解酶对不同环数的多环芳烃的降解能力,针对最难以降解的底物进行研究。降解数据见表1.3[6]。
表1.3 NCIB 9816-4降解PAHs 的情况
Table 1.3 the survey of PAHs degraded by NCIB 9816-4
cis-Dihydrodiol
Stereochemistry
Relative yield (%)
Naphthalene
(+)-1R,2S 100%
Anthracene
(+)-IR,2S 100%
Phenanthrene
(+)-3S,4R 90%
Acenaphthylene
cis- 1,2 70%
Fluorene
3S,4R 85%
1.2同源建模发展情况
1.2.1同源建模的意义
蛋白质三维结构数据的测定法法包括:X-ray、NMR和同步辐射光源。X射线的特点是可做大蛋白结构分析、需要蛋白结晶,但是多数蛋白无法结晶,所以能够用X射线测出晶体结构的蛋白非常少。而NMR无需结晶,但只能做中、小蛋白质,序列范围为几百个氨基酸残基。
上述方法各有优缺点,导致不是每一条新发现的蛋白质的三维结构都能够被精确测定。但是实验室对酶和蛋白的研究又急需新蛋白的三维数据。由于DNA数据的增速(见图1.4),远远大于蛋白质结构数据的增速(见图1.5)。通过DNA序列预测出来的蛋白质数量和已测定结构的蛋白质数量(PDB数据库)之间的差距越来越大,我们希望蛋白质结构测定的速度能够跟上蛋白质序列产生的速度。
图1.4 UniprotKB/swiss-prot 蛋白质数据增加情况 Fig1.4 the increase of protein in UniprotKB/swiss-prot database
图1.5 PDB数据库中蛋白质结构数据增加情况 Fig1.5 The increase of protein structure in PDB
1.2.2同源建模的概念
在这种情况下,随着近年来信息技术的兴起,蛋白质结构预测技术的发展,运用计算机技术获得蛋白三维结构已经成为比较成熟的方法。同源建模技术具体是指在已经存在晶体结构的蛋白质中寻找与目标序列同源性较高(一般>30%)的蛋白作为模板,模拟构建目标序列的三维结构。其基本原理是任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同[7~9]。 1.2.3 同源建模的一般流程
同源建模的一般流程为[10]: ⑴搜索结构模型的模板
利用Blast工具,将目标序列在蛋白质结构数据库(PDB)进行同源搜索,寻找与目标序列有较高同源性的蛋白质,选择同一性较高,分辨率较高且与底物形成复合物的结构作为模版。
⑵序列比对
通过目标序列与模板序列的比对确定目标序列的保守结构,使其残基匹配,比对中允许插入和删除操作。
⑶建立模型
建立模型分三个部分,第一个是模型骨架建立,通过比对,使用模板结构中匹配残基的骨架;第二个是蛋白质的侧链建立,用构建的骨架与已知数据库进行比对,寻找相同的片段,借此从数据库中提取局部结构数据;第三个是蛋白环区的建立,环区是指二
级结构之间的区域,经验性方法是从已知结构的蛋白质中寻找一个最有的环区,使用其结构数据。另一种方法是从头计算,一句量子化学原理计算其能量最低结构。
⑷优化模型
上述步骤得到了的初步结构模型,需要进行优化、改进,让模型内部重要区域或者整个模型的键长和键角处于合理位置,是对接结果更接近事实。具体方法:分子力学、分子动力学、模拟退火等。
⑸ 模型评价
我们采用多种方式建模,所建结果就需要用不同的方法去评价,从而确定最终对接使用的模型。不同的评价方法从不同的角度去评价模型的质量,我们根据需要选择。目前有很多服务器和网站提供模型的评价,评价结果可以作为模型合理性的参考数据。
1.3 蛋白质和蛋白质结构数据库
1.3.1蛋白质结构数据库
⑴PDB( www.rcsb.org/pdb/home/home.do)
蛋白质结构数据库PDB是世界唯一的生物大分子3D结构数据仓库,包含蛋白质和核算。这些生物大分子是在所有生物中发现的,包括细菌,酵母,植物其他动物和人。理解一个分子的结构有助于理解它是怎样工作的。这些知识能够帮助推断一个分子的结构在人类疾病中扮演的脚色,还能帮助开发药物。仓库中的数据包括小蛋白、小片段DNA到复杂的分子机器例如核糖体。PDB是免费的,数据库在每周三更新。PDB在1971由布鲁克海文国家实验室建立,1998年结构生物信息合作研究室管理(RCSB)PDB。PDB收集的数据包含X-ray和核磁共振(NMR)产生的数据。同时PDB还支持了一个网站,访问者可以来执行简单的查询搜索功能。使用PYMOL等三维结构显示工具可以按照PDB的格式现实生物大分子的三维结构。
⑵MMDB (http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure)
分子模型MMDB 是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。 与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。
⑶ SCOP http(http://scop.mrc-lmb.cam.ac.uk/scop/)
SCOP数据库 ( http://scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白
质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:
(1)家族:具有明显的进化关系
(2)超家族:具有远源进化关系,具有共同的进化源 (3)折叠类:主要结构相似
SCOP 还提供一个非冗余的 ASTRAIL 序列库,这个库通常被用来评估各种序列比对算法。此外, SCOP 还提供一个 PDB-ISL 中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
⑷PROSITE ( http://www.expasy.ch/prosite/)
PROSITE ( http://www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 在特殊情况下,目标序列与已知结构的蛋白质的整体序列相似性很低,但是由于功能的需要保留了许多与功能密切相关的序列模式,就可以通过它搜索到隐含的功能motif。 1.3.2蛋白质数据库
⑴PIR (http://pir.georgetown.edu/)
PIR是国际上最大得公共蛋白序列数据库。它是为了帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组而建立的。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。包含超过535698条蛋白质序列(至2012.04)。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献;
(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。 PIR提供三种类型的检索服务:
一是基于文本的交互式查询,用户通过关键字进行数据查询。 二是标准的序列相似性搜索,包括BLAST、FastA等。
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。
(2) UniprotKB/Swiss-Prot(http://www.expasy.ch/sprot/sprot-top.html)
Swiss-Prot是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过人
工注释的。
SWISS-PROT数据的不同来源: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据
在SWISS-PROT中,数据分为核心数据和注释两大类。
核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)。 注释包括:
(A)蛋白质的功能描述; (B)翻译后修饰;
(C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构;
(E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性;
(G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。
1.4序列比对
1.4.1 序列对比的意义
序列比对,是生物信息学的核心研究内容之一,也是各种序列分析任务的基本方法。在生物学研究过程中,为了确定新测序列的生物属性,经常需要进行序列同源性分析,就是将新序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作通常使用序列比对的方法。不仅如此,在蛋白质结构预测等,序列比对也是最为重要的一种方法。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。一般认为蛋白质的结构和功能比序列具有更大的保守型,如果序列之间的相似性超过30%,它们很可能就是同源的。 1.4.2原理和方法
序列的比对方法可以按不同的标准进行划分,目前,已知的序列比对方法很多,包
括全局序列比对,局部序列比对.根据参与比对序列的数目,可以把序列比对分为两序列比对和多序列比对。最重要的是打分函数和空位罚分。 (1)全局序列比对(Global Alignment)
全局序列比对:对序列进行全程扫描,考察两条序列整体之间的相似性情况,在给定得分值的情况下进行序列比较。全局序列比对利用了动态规划的思想,在给定的两条序列全部长度上进行比对,得到全长序列最优比对.两条序列在全局范围内,只有两个字母是完全匹配的,其他位置都没有好的匹配,说明这两条序列经过全局比对,没有大 的相似性。
(2)局部序列比对(Local Alignment)
局部序列比对:当两条序列进行比对时,找出待比对序列中的某一子片段的最优比对,但是这个最优比对,不一定是全局最优比对的片段.许多蛋白质在全局范围内并不具有相似性,就需要在局部范围里考虑,在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配序列段,而本来这些序列段是被一些完全不相关的残基所淹没的。因此如果使用全局比对,很可能会掩埋一些局部的相似性。 (3)两两序列比对(Pairwise Sequence Alignment)
两两序列比对:就是把两条未知的序列进行排列,通过字母的匹配(Match),删除(Delete)和插入(Insert)操作,使得两条序列达到同样长度,在操作的过程中,尽可能保持相同的字母对应在同一个位置。但是,在比对中通过加入空格,就可以得到比较好的比对生物序列比对第一章序列比对另外,也可以得到另~种比较合理的比对。 (4)多重序列比对(Multiple Alignment)
在序列比对时,两两比对远远不能满足当今生物研究的需要,难以找出多条序列的共性,就要求我们进行多重序列比对。多重序列比对:就是参加比对的序列数目不止两条,通过字母的匹配(Match),删除(Delete)和插入(Insert)操作,通过比对找出多条序列的共性。与序列两两比对不同,多重序列比对的目标是找出多条序列的共性多重序列比对,是生物信息学研究一个主要的方法,随着DNA测序方法的快速发展,将未知的序列同整个数据库的已知序列进行比对,从而找出相似序列,就成了最常用的方法。同时多序列比对还可以辅助检查一个序列家族中的全局相似性和进化亲缘关系。通过序列的多重比对,找出相对保守的子序列,就是家族的特征序列。当遇到一条未知序列时,通过比对,判断这条序列是不是属于这个家族。
字母的排列,构建多个动态规划矩阵,由于实际数据利用多维的动态规划矩阵进行序列比对相当困难,因此就需要利用好的算法来降低复杂度[12]。 1.4.3 算法和工具
算法基本上都是基于动态规划思想的。相对于两两序列的算法,多序列比对算法发展的还不够成熟,比较常用的有隐马尔可夫模型。
FASTA是第一个被广泛应用的序列比对和搜索工具包,包含若干个独立的程序。FASTA为了提供序列搜索的速度,会先建立序列片段的―字典‖,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。
BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。NCBI提供了基于Web的BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列搜索的结果。BLAST包含五个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。
目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
CLUSTALW对输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。
用CLUSTALW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”代表保守性略低的残基位点。
1.5 分子对接
1.5.1历史背景
分子对接(molecular docking)使依据配体与受体作用的―锁-钥原理‖(lock and key principle),模拟小分子配体与受体生物大分子相互作用。配体与受体相互作用是分子识别的过程,主要包括静电作用、氢键作用、疏水作用、范德华作用等。通过计算,可以预测两者间的结合模式和亲和力,从而进行药物的虚拟筛选。 1.5.2原理和方法 (1)分子对接的原理
分子对接的一般原理是将已知三维结构数据库中的分子逐一放在靶标分子的活性位点处。通过不断优化受体化 合物的位置、构象、分子内部可旋转键的二面角和受体的氨基酸残基侧链和骨架,寻找受体小分子化合物与靶标大分子作用的最佳构象,并预测其结合模式、亲和力和通过打分函数挑选出接近天然构象的与受体亲和力最佳的配体的一种理论模拟分子间作用的方法。 (2)分子对接的方法主要包括:
①刚体对接:指在对接过程中,研究体系(受体和配体)的构象不发生变化。适合考察比较大的体系,如蛋白质和蛋白质间以及蛋白质和核酸之间的对接。
②半柔性对接:指在对接过程中,研究体系尤其是配体的构象允许在一定的范围内变化。适合处理大分子和小分子间的对接,对接过程中,小分子的构象一般是可以变化的,但大分子是刚性的。
③柔性对接:指在对接过程中,研究体系的构象基本上可以自由变化的。一般用于精确考虑分子间的识别情况。由于计算过程中体系的构象可以变化,所以计算耗费最大。 1.5.3 对接工具
(1)Autodock Tools(ADT)
AUTODOCK是Scripps的Olson科研小组开发的分子对接软件包,最新的版本为4.2,AUTODOCK采用模拟退火和遗传算法来寻找受体和配体最佳的结合位置,用半经验的自由能计算方法来评价受体和配体之间的匹配情况。在AUTODOCK中,配体和受体之间结合能力采用能量匹配来评价。在1.0和2.0版本中,能量匹配得分采用简单的基于AMBER力场的非键相互作用能。非键相互作用来自于三部分的贡献:范得华相互作用,氢键相互作用,以及静电相互作用。在3.0以后版中,AUTODOCK提供了半经验的自由能计算方法来评价配体和受体之间的能量匹配在最早的AUTODOCK版本中,作者采用了模拟退火来优化配体和受体之间的结合。在3.0版本中,Morris等发展了一种改良的遗传算法,即拉马克遗传算法(LGA)。测试结果表明,LGA比传统的遗传算法比模拟退火具有更高的效率。不同菌种来源的联苯双加氧酶同源建模及其与多氯联苯的相互作用分析 。在LGA方法中,作者把遗传算法和局部搜索(local search)结合在一起,遗传算法用于全局搜索,而局部搜索用于能量优化。在AUTODOCK中,局部搜索方法是自适应的,它可以根据当前的能量调节步长大小。LGA算法引入了拉马克的遗传理论,LGA最大的特点就是通过进化映射(developmental mapping)把基因型转化为表现型而实现局部搜索和遗传算法的结合。基因型空间通过遗传算子突变和交叉来定义,而表现型则通过问题的解来定义[11]。
2.萘双加氧酶的序列比对
2.1实验材料和方法
为了增加分子对接底物与酶作用的多样性,以便找到结合能尽可能低的结合状态,从swiss-prot 上下载了假单胞菌、假单胞菌C18株、荧光假单胞菌、绿脓杆菌、红球菌、氨醇单胞菌、睾丸酮丛毛单胞菌、混浊红球菌和实验室里的JM-2共9条NDO序列,作为本论文的建模对象(表2.1);序列对比软件是clustal X2。
表2.1 萘双加氧酶α亚基氨基酸序列来源 Table 2.1 Source of NDO α subunit amino acid sequences
No
1 2 3 4 5 6 7 8 9
Accession JM-2 P0A110 P0A111 O07824 Q51494 Q9X3R9 A2TC87 A9YUA0 C1BE09
Gene names phnAc ndoB doxB ndoB ndoB narAa bphA1f ndoB narAa
organism Pseudomonas putida Pseudomonas putida Pseudomonas sp. (strain C18) Pseudomonas fluorescens Pseudomonas aeruginosa
Rhodococcus sp. Sphingomonas yanoikuyae Comamonas testosteroni Rhodococcus opacus
length
437 449 449 449 470 454 335 468 340
2.2 实验结果与讨论
使用clustal X2序列对比软件对上述序列进行交叉比对。结果见表2.2。从表中可以看出,8种序列与实验室的JM-2序列的同源性差别较大。
表2.2 其余八种萘双加氧酶相对JM-2的交叉比对结果
Table2.2 result of cross-alignment with the sequence of JM-2 and other NDOs
SeqA
Name
Length 437 437 437 437 437 437 437 437
SeqB
2 3 4 5 6 7 8 9
Name
sp|P0A110|NDOB_PSEPU sp|P0A111|NDOB_PSEU8 sp|O07824|NDOB_PSEFL sp|Q51494|NDOB_PSEAI tr|Q9X3R9|Q9X3R9_9NOCA tr|A2TC87|A2TC87_SPHYA tr|A9YUA0|A9YUA0_COMTE tr|C1BE09|C1BE09_RHOOB
Length
449 449 449 449 470 454 432 468
Score 46.0 46.0 46.0 46.0 30.0 46.0 46.0 33.0
1 phnAc 1 phnAc 1 phnAc_ 1 phnAc 1 phnAc 1 phnAc 1 phnAc 1 phnAc
2.3 小结
通过以上实验可以看出,本实验室的萘双加氧酶JM-2与其余八种萘双加氧酶的同源性都不太高,最高仅为46%,JM-2较为特殊。这九种萘双加氧酶序列将作为下一章同源建模的材料。
Benzo(b)fluoranthene 苯并(b)荧蒽)进行对接。Mod1、mod6与BBF的对接结果对接结果如图5.18~5.19所示。可以看出,在mod1活性中心,底物分子为前后走向,但是由于H301和N303的空间位阻,分子是侧身与Fe接触,结合能较高为-7.85 kcal/mol;而mod6中,由于F293和H295的侧链平放,空间位阻减小,底物分子平放,同时结合能降低,为-10.77 kcal/mol。
图5.18 模型一与苯并(B)荧蒽对接结果 Fig5.18 Docking results of mod1 and benzo (b) fluoranthene
图5.19 模型六与苯并(B)荧蒽对接结果
Fig5.19 Docking results of the mod6 and benzo (b) fluoranthene
图5.20为mut1与BBF对接结果。从图中可以看出,经过H301和N303的突变,
底物朝向未发生改变,但是靠近的侧链产生的空间位阻太大,导致BBF的侧环升高,结合能升高,变为-7.86 kcal/mol,和11号底物结果相差较大。
图5.20 突变一与苯并(B)荧蒽对接结果
Fig5.20 Docking results of the mut 1 and benzo (b) fluoranthene
图5.21 突变二与苯并(B)荧蒽对接结果
Fig5.21 Docking results of the mut 2 and benzo (b) fluoranthene
图5.21为mut2与12号底物对接结果。从图中可以看出,突变H301和N303为A,可以让H301和N303侧链的空间位阻降到最低,底物变为左右走向,结合能为-9.54 kcal/mol。
图5.22 突变三与苯并(B)荧蒽对接结果
Fig5.22 Docking results of the mut 3 and benzo (b) fluoranthene
图5.22是mut3与12号底物对接结果。将H303突变为A303,这个突变没有对底物走向产生影响,但是结合能再次降低为-9.8 kcal/mol,说明 H301确实能够将底物分子向上推。
图5.23 突变四与苯并(B)荧蒽对接结果
Fig5.23 Docking results of the mut 4 and benzo (b) fluoranthene
图5.23是mut4与BBF的对接结果,从图中可以看出F301的苯环确实稍微平放了,在造成空间位阻减小的同时,还能恰到好处地将底物推到合适的位置。结合能为-9.89 kcal/mol,比前三个突变结合能都低。,与11号底物结果类似。
图5.24 突变五与苯并(B)荧蒽对接结果
Fig5.24 Docking results of the mut 5 and benzo (b) fluoranthene
图5.24是mut5与BBF对接结果,突变A412为D412造成L257的侧链外翻,底物分子走向发生改变,由原来的大头朝Fe,变为小头朝Fe,但是结合能为-10.26 kcal/mol,同样是优势构象,同11号底物结果类似。
5.3作出假设
在以上的基础上,设计出三套方案:
1. 活性中心底物朝向类似于mod6,底物分子前后走向,大头双环离Fe较近,所突变的氨基酸见下表5.2,并分别于与苯并(K)荧蒽、苯并(B)荧蒽号底物对接。对接结合能见表5.3。
表5.3 一号方案突变的氨基酸列表 Table5.3 the list of mutation of amino acids
No. 1 2
突变的氨基酸 N303 H301
表5.4 一号方案对接结果
Table5.4 Docking results of the first method
H303 F301
底物 能量
苯并(K)荧蒽 -9.24 kcal/mol 苯并(B)荧蒽 -10.51 kcal/mol
2. 活性中心底物左右走向,朝向转换,变成大头双环朝Fe,所突变的氨基酸见下表5.4,并分别与11、12号底物对接。对接结合能见下表5.5。
表5.5 二号方案突变的氨基酸列表 Table 5.5 the list of mutation of amino acids
No. 1 2
N303 H301
突变的氨基酸
A303 F301
表5.6 二号方案对接结果
Table 5.6 Docking results of the second method
底物 能量
苯并(K)荧蒽 -10.88kcal/mol 苯并(B)荧蒽 -9.89kcal/mol 从上面表中可以看出,通过氨基酸突变后的模型较未改前的mod1与11、12号底物对接的能量相比,降低,说明结合力增强了。
3. 活性中心底物分子左右走向,但是朝向变为小头单环朝Fe, 所突变的氨基酸见下表5.6,并分别与11、12号底物对接。对接结合能见下表5.7。
表5.7 三号方案突变的氨基酸
Table5.7 the list of mutation of amino acids
No. 1 2 3
N303 H301 A412
突变的氨基酸
A303 F301 D412
表5.8 三号方案对接结果 Table5.8 Docking results of the third method
底物 能量
11(苯并(K)荧蒽) -10.58 kcal/mol
12(苯并(B)荧蒽) -10.26 kcal/mol
5.4小结
本章主要是通过对影响活性中心口袋大小的七个非保守氨基酸进行突变,通过结合能的高低来考察突变的结果。通过一系列突变,得出突变N303突变为H303的基础上,再将H301突变为F301, F301-H303形成了类似于mod6的结构,但是两个氨基酸的环却靠近(并不是mod6的远离平放),侧链平放,也能导致活性中心口袋变大,底物走向
3. 萘双加氧酶的同源建模
本节主要利用3种不同建模工具,将上述9种来源不同的NDO三维建模,再用3种模型评价工具进行考核评价,筛选出优质模型,用来分子对接。
3.1建模工具
所用建模工具有:swiss-model,PHYRE2,Geno3D 模型评价工具有:Verify3D,Errat,Ramachandran Plot
3.2 实验结果与讨论 3.2.1萘双加氧酶模板筛选
将上述9种序列在PDB数据库中进行同源搜索,将搜索结果按照同源性高低排列,结果见表3.1
表3.1 9种萘双加氧酶序列的同源搜索结果
Table 3.1 result of homology searching
1 1NDO 50 2GBW 50 2HMJ 50 2CKF 49 2BMO 47 2XSH 37
2 1NDO 100 2HMJ 99 2BMO 82 2GBW 43 2CKF 41
3 1NDO 100 2HMJ 89 2BMO 82 2GBW 43 2CKF 41
4 1NDO 96 2HMJ 96 2BMO 82 2GBW 43 2CKF 42
5 1NDO
90 2HMJ
90 2BMO
81 2GBW
44 2CKF
43
6 2B1X 100 2XSH
38 1NDO
36 2BMO
36 2GBW
35 2HMJ
35
7 2GBW
100 2CKF
91 2HMJ
43 1NDO
43 2BMO
41
8 1NDO
100 2HMJ
89 2BMO
82 2GBW
43 2CKF
41
9 2B1X
92 2XSH
38 2GBW
35 1NDO
35 2BMO
35 2HMJ
34
从同源搜索的结果看来,第2、3、8三条序列与1NDO的相似性为100%,决定直接用其晶体结果作为分子对接材料;第6条序列与2B1X的同源性为100%,直接用其晶体结构作为分子对接材料;第7条序列与2GBW的同源性为100%,直接用其晶体结
构作为分子对接材料。剩下需要建模的只有第1、4、5、9四条序列。
筛选模板的条件是优先选择同一性高、分辨率高的结构做模板,同等情况下优先选择与底物形成复合物的结构。将能够满足做模板的序列筛选出来,见表3.2。
表3.2 模版初筛结果
Table 3.2 preliminary result of preliminary screening template 2HMJ 2BMO 2GBW 1NDO
分辨率 1.5 1.2 1.7 2.25
复合物结构 1o7g 2BMR\\2BMQ
2GBX 无
综上所述,选择分辨率较低(1.2),同一性较高(均大于30%),且有与底物形成的复合物晶体结构(2BMR/2BMQ)的2BMO作为建模模板。
将9条序列与模版进行交叉比对,按照同源性高低,将序列分为3组,分组结果按照颜色深浅进行区别。结果见表3.3
表3.3 萘双加氧酶序列与模板交叉比对结果
Table 3.3 result of NDOs cross-alignment with the sequence of template
SeqA 2BMQ_A
2BMQ_A
2BMQ_A
2BMQ_A
2BMQ_A
2BMQ_A
2BMQ_A
2BMQ_A
2BMQ_A
Length 447 447 447 447 447 447 447 447 447
SeqB 8 4 2 3 5 1 7 6 9
Name
tr|A9YUA0|A9YUA0_COMTE sp|O07824|NDOB_PSEFL sp|P0A110|NDOB_PSEPU sp|P0A111|NDOB_PSEU8 sp|Q51494|NDOB_PSEAI
phnAc
tr|A2TC87|A2TC87_SPHYA tr|Q9X3R9|Q9X3R9_9NOCA tr|C1BE09|C1BE09_RHOOB
Length 432 449 449 449 449 437 454 470 468
Score 89.0 82.0 81.0 81.0 80.0 44.0 40.0 36.0 35.0
(a)与2MBQ_A相似度较高
包括:POA110、POA111、O07824、Q5494、A9YUA0 (b) 与2MBQ_A相似度中等 包括:phnAc、A2TC87
(c)与2MBQ_A相似度较低 包括:C1BE09、Q9X3R9
3.2.2萘双加氧酶的同源建模
选择2BMQ_A(2BMQ的α链)作为模板,利用实验材料上述的三个工具,对1、4、5、9序列进行建模。如图3.1所示是模板2BMQ_A与JM-2的模型mod1比较,模板是绿色,模型是红色。上述氨基酸序列所对应的建模结果(或者晶体结构)统一对应命名为mod1~mod9,中文名为模型一到模型九。
图3.1 模板2BMQ_A的晶体结构与JM-2所建模型的比较 Fig3.1 JM-2 model compared to template 2BMQ_A crystal structure
3.2.3模型评价
将建好的模型分别用三种不同的评价方式进行评价,选出质优模型,用来分子对接。 (1)Errat
ERRAT会对你提交的模型晶体化学精度给出一个Overall quality factor 值,一般好的高分辨率晶体结构其Overall quality factor值会达到或高于95%,结果见表3.4。 (2)Veirfy3D
Verify 3D是结合蛋白质一级结构(氨基酸序列)和其三维模型的一个评价方法,以蛋白质结构数据库中好的模型为参考,对每个氨基酸给出一个值(有正有负)。所有值加起来后的总值越大越好。结果见表3.4。 (3)R-plot
R-plot(拉氏图)根据蛋白质中非键合原子间的最小接触距离,规定成对二面角的相邻肽基构象哪些是允许的,哪些是不允许的。当然模型结构中的氨基酸在允许区(favored)比例越大越好,在非允许区(outlier)比例越小越好。结果见表3.4。
统计每种建模方式做出的模型的得分,结果见表3.4。
表3.4 模型评价结果平均值
Table 3.4 the average assessing result of all methods
Tools 2MBQ.A Swiss-model Phyre2 Geno 3D Verify 3D 189.27 85.36 162.33 161.63 Errat 96.270 43.026 74.163 85.112 R-plot(favored) 97.0 78.4 94.5 90.8 R-plot(outlier) 0.2 4.9 1.0 3.7 表中数据位3种评价方式对三种建模工具的评价平均分,第二列为三种评价方式对模板的评分。终上所述,Phyre2在这3个同类工具中,在R-plot、Verify3D 2个中得分最高,所以我们采用Phyre2的建模结果作为我们以后分子对接的材料。
3.3 小结
通过以上实验,筛选出选择分辨率较低(1.2),同一性较高(均大于30%),且有
与底物形成的复合物晶体结构(2BMR/2BMQ)的2BMO作为建模模板;采用swiss-model、Phyre2、Geno3D三种方式建模;通过Verify3D、Errat和R-plot三种评价方式,Phyre2在这3个同类工具中,在R-plot、Verify3D 2个中得分最高,所以我们采用Phyre2的建模结果作为我们以后分子对接的材料。
4. 萘双加氧酶与PAHs的分子对接
本章主要利用分子对接工具,将16种不同的PAHs分别与上述9种模型做对接,考察对接结果。同时影响对接结果的蛋白分子的活性中心氨基酸类型和漂移情况作研究,提出活性中心改造方向。
4.1实验准备
4.1.1分子对接工具准备
Autodock tools(ADT),chembioOffice2010,Pymol 4.1.2 PAHs分子构建与优化
1)将常见的16种PAHs的结构编号,用chembiooffice2010中的chembiodraw画出16个分子,以编号命名。
2)用chembio3D的MM2优化方式将16个分子优化,纠正原子错误、类型丢失等错误,保存为mol2格式,结果如图4.1。
图4.1 萘的mol2格式
Fig4.1 the mol2 formula of naphthalene
4.1.3初始模型的修饰
将Phyre2所建8个模型通过与2BMQ_A对比,在相同位置上添加Fe,使其与活性
三联体(两个His和一个Asp)相连,保存为新模型,结果见图4.2。
图4.2 (a)模型修饰前 (b)模型修饰后 Fig4.2 (a) before the change (b) After the change
4.2预对接
1)利用上述修饰后的新模型作为对接受体。
2)分别用ADT对9个模型和PAHs分子进行预处理,保存为pdbqt格式。 3)以活性中心的Fe为对接中心。
预对接参数: center_x = 56.976 center_y = 62.53 center_z = 0.088 size_x = 54 size_y = 44 size_z = 46
maximum number of evals medium = 2500000 num_modes = 10
4.3优化后对接
1)将模型以Fe为中心,用charm对其15?范围内的氨基酸残基进行局部优化。 2)优化后的模型用ADT做预处理,保存为pdbqt格式,准备对接。 3)编写批处理进行对接,节省操作量。 优化后的对接参数: center_x = 53.95 center_y = 66.57 center_z = 0.088
size_x = 44 size_y = 44 size_z = 46
maximum number of evals medium = 2500000 num_modes = 10
4.4数据整理与分析
下面对所有结果按照上述分组,分三组讨论。对三组中与模板相比同源性最高的模型的活性中心氨基酸进行分析,包括mod8、mod1、mod6。结果见下表4.1。活性中心总共有18个氨基酸,其中有9个是非常保守的氨基酸(1、2、3、5、7、8、10、16、17),在各个模型中仅仅是变化了序号,位置和种类都没变;有2个是比较保守的氨基酸(4、14),在各个模型中发生了突变,但是突变后的类型一致;有7个是非保守氨基酸(6、9、11、12、13、15、18),在各个模型中随机突变。深色的是保守氨基酸,浅色的半保守氨基酸(与模版不一样,但是突变后的结果在9个模型中一样),无底色的是非保守氨基酸
表4.1 模型一、六、八与模板2BMQ_A相比活性中心氨基酸变化
Table 4.1 amino acid changes in active center of model 1, 6, 8 compared to the template 2BMQ_A
编号
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
模板 N199 F200 D203 G204 H206 V207 H211 G249 F251 N258 F293 N295 S308 I350 W356 D360 G202 A405
mod8 N199 F200 D203 A204 H206 V207 H211 G249 L251 I258 H293 N295 S308 F350 W356 D360 G202 A405
mod1 N205 F206 D209 A210 H212 V213 H217 G255 L257 V264 H301 N303 T316 F358 L364 D368 G208 A412
mod6 N209 F210 D213 A214 H216 T217 H221 G252 I254 无 F293 H295 F308 F362 F368 D372 G212 D418
4.4.1 预对接结果
在与对接的过程中,没有对活性中心进行优化,活性中心有些原子的位置和键长是不合理的,在这种情况下以Fe为中心进行与对接,将结果与优化后的相比可以说明优化的必要性。在分子对接过程中,程序在grid设定好的格点范围内计算配体与受体可能的结合位置,并给出与受体结合能最低的几种构象。配体与受体的结合能(bind energy)说明了它们之间的亲和力大小,结合能越低亲和力越大。按照与模板同源性高低分组进行结果讨论。其中,2BMQ_A是模板。
a) A组结果如下:
图4.3 (a)组对接结果 Fig4.3 the docking result of group(a)
可以看出与模版同源性差别不大的模型对接结果差别也不大,这一组5个模型的序列同源性都超过80%,建模结果也大同小异,活性中心氨基酸差异较小,导致对接结果差别不大。本组在以后的研究对象确定为同源性最高的mod8,并对它进行优化后再对接。
b)结果如下:
图4.4 (b)组对接结果 Fig 4.4 the docking result of group(b)
B组的两个模型的序列相似对均在40%~50%之间,对接结果趋势一致,本组在以后的研究对象确定为同源性最高的mod1,并对它进行优化后再对接。
c)结果如下:
图4.5 (c)组对接结果 Fig4.5 the docking result of group(c)
可以看出,两条曲线基本重合,在数字上也差别不大。本组在以后的研究对象确定为同源性最高的mod6,并对它进行优化后再对接。
由于三个组组内对接结果相差不大,所以分析氨基酸漂移的时候只分析每组与模板同源性最高的序列。结果如下:
图4.6 优化前活性中心氨基酸漂移结果
Fig4.6 the results of active site amino acid drift before optimizing
从图上我们可以看出,氨基酸的位置移动范围为-0.1~5.3?,位置移动较大的为非保守氨基酸。位置移动较大的为非保守的氨基酸,有4、6、8、10、11、12、13号,结果与文献记载相差不大(4、6、9、10、11、12、13、15号),影响模型中活性中心大小的因素包括氨基酸的位置和氨基酸的种类。所以我们对氨基酸突变种类进行讨论。 4.4.2 优化后对接结果
从预对接结果可以看出,每组的对接结果基本一致,出入较小,优化之后为了节省时间,只是对接每组与模板同源性最高的序列,并查看结果,如图4.7。
图4.7 优化后结合能变化趋势图
Fig4.7 Binding energy changes in trends after optimizing
从图中可以看出,mod6的对接结合能最低,而且有随着PAHs环数增多结合能下降的趋势,这就表示该蛋白的活性中心和难以降解的大环多环芳烃有着很强的结合能力,它的活性中心氨基酸的排布情况是重要的研究方向。
优化后氨基酸漂移情况如图4.8。
图4.8 优化后活性中心氨基酸漂移图
Fig4.8 the results of active site amino acid drift after optimizing
优化之后,活性中心氨基酸和Fe都处在较为合理的位置上,此时测量的氨基酸漂移量更加准确。从图中可以看出,优化后的移动范围为-0.2~0.4,氨基酸位置相当于没
有移动,基本与模板中一致。氨基酸位置对活性中心的影响这个因素可以忽略不计。下面主要讨论氨基酸类型变化对活性中心的影响。 4.4.3 优化前后的实验结果对比
图4.9 (a)组优化前后对比图
Fig4.9 Affinity comparison of group(a) before and after optimization
图4.10 (b)组优化前后对比图
Fig4.10 Affinity comparison of group (b) before and after optimization
图4.11 (c)组优化前后对比图
Fig4.11 Affinity comparison of group (c) before and after optimization
从图4.9~4.11可以看出,优化前后的结合能有升有降。
图4.12 优化前后氨基酸漂移
Fig4.12 the results of amino acid drift before and after optimizing
从图4.12比较优化前后氨基酸漂移的范围可以看出,优化确实可以将原子和键长处于合理的位置。而且优化之后,氨基酸位置移动对活性中心的影响的因素降到了最低,基本可以忽略不计。论文主要是对活性中心氨基酸的突变种类进行讨论。
4.5 小结
通过本章实验,采用没有通过分子力场对活性中心优化的预对接和优化后的对接结果,我们可以得知,分子力场可以使活性中心的氨基酸处于更加合理的位置。通过对活性中心氨基酸位置的漂移量的统计,得出在优化之后,氨基酸位置移动较小,范围为-0.1~0.5?,所以氨基酸位置变化对活性口袋的影响可以忽略不计;对活性中心口袋影响的关键因素是氨基酸的类型。通过对不同模型的活性中心氨基酸类型进行分析,得出活性中心总共有18个氨基酸,其中有9个是非常保守的氨基酸(1、2、3、5、7、8、10、16、17),在各个模型中仅仅是变化了序号,位置和种类都没变;有2个是比较保守的氨基酸(4、14),在各个模型中发生了突变,但是突变后的类型一致;有7个是非保守氨基酸(6、9、11、12、13、15、18),在各个模型中随机突变。下面实验的研究目标转变为影响活性中心口袋大小的非保守氨基酸。
5.蛋白设计
5.1质心和C到Fe距离分析
图5.1 底物质心到催化铁原子距离
Fig5.1 the distance between center of mass of substrate and Fe
图5.1所示是底物PAHs的质心到Fe的距离,可以用质心来考察底物和Fe的最佳催化距离。但是,从图中可以看出,结合能最低的mod6的Fe与底物质心的距离规律是随着环数的增加距离在减小(16号除外)。但是由于底物是长条形的,不同的朝向会导致质心距离不具有可比性,说明不了问题。并不是离得越近越好,也不是离得越远越好。 底物在活性中心口袋质心分布如下图所示。图中蓝色小球为Fe,红色小球为质心。
图5.2 模型八中底物质心分布图 Fig5.2 the distribution of centers of mass in mod8
图5.3 模型一中底物质心分布图
Fig5.3 the distribution of centers of mass in mod1
图5.4 模型六中底物质心分布图 Fig5.4 the distribution of centers of mass in mod6
从图5.2~5.4可以看出,底物质心在活性中心分布是不一样的,其中mod1分布较为紧凑,成团状分布。而mod8和mod6的底物质心分布在一个平面上。
下面继续测量了离Fe最近的C=C的两个C到Fe的距离。将两个C分别命名为C1何C2。
图5.5 C1到铁原子距离 Fig5.5 the distance between C1and Fe
图5.6 C2到铁原子距离 Fig5.6 the distance between C2and Fe
图5.5~5.6是对底物分子离Fe最近的C=C的两个碳原子到Fe的距离测量。从图中可以看出,结合能较低的mod6的C-Fe距离往往最大,但是规律不明显。说明光看C-Fe距离也不能说明哪种酶对底物催化能力强。
5.2氨基酸突变
5.2.1突变过程
我们来看结合最好的mod6和实验室的降解酶mod1的活性中心结构。用pymol进行结构比对,我们发现两者区别最大的7个非保守氨基酸。它们情况见表5.1
表5.1 活性中心非保守氨基酸
Table5.1 Non-conserved amino acids in active site
模型 Mod1 Mod6
V213 T217
L257 I254
H301 F293
非保守氨基酸
N303 H295
T316 L308
L364 F368
A412 D418
它们的结构差异见图5.7~5.8,中间空白区域就是活性口袋。可以明显看出这7个氨基酸对活性中心口袋影响举足轻重。Sticks显示的是7个非保守氨基酸,红色的是Fe。为了方便叙述,我们将图5.7~5.8所展示的活性口袋视为标准的,用上下左右前后来描
述底物分子在这种标准中的结合构象。
N303 H301
图5.7 模型一活性中心 Fig5.7 the active center of mod1
H293 F295
图5.8 模型六活性中心 Fig5.8 the active center of mod6
将mod1和mod6与11号底物BKF(Benzo(k)fluoranthene)苯并 (k)荧蒽的对接最佳构象展示,从图5.9~5.10中可以看出,11号底物分子在两种酶的活性中心朝向是完全不同的。Mod1中底物分子是前后走向,小头单环朝后,且单环上的C离Fe更近;mod6中同样的底物分子也是前后走向,但是是大头双环朝后,且大头双环离Fe更近。从对接结果看,mod1与11号的最低结合能为-5.12 kcal/mol,mod6与11号最低结合能为-9.81 kcal/mol。分析原因,我们可以看出mod1的H301和N303
两个氨基酸并不相靠近,而且侧链竖放,空间位阻太大,导致mod1的高结合能的结合构象。而mod6中对应的F293和H295的环却不靠近,而且侧链平放,导致活性中心口袋变大,底物分子走向发生改变,结合能急剧下降,结合得更加稳定。从图5.9~5.10可以看出,对底物分子走向影响最大的就是H301和N303两个氨基酸,在接下来的实验中,将对这两个氨基酸进行突变,已取得结合能更低,结合得更牢固的构象。下面我们将针对上述分析进行氨基酸突变,突变结果命名为mut1~8,中文名字为突变一到八。
图5.9 模型一与苯并(k)荧蒽对接结果
Fig 5.9 Docking results of the model 1 and benzo (k) fluoranthene
图5.10 模型六与苯并(k)荧蒽对接结果
Fig5.10 Docking results of the model 6 and benzo (k) fluoranthene
1)在N303突变为H303的基础上,再将H301突变为F301,同样使用Phyre2进行建模,结果命名为mut1。从图5.11上看出,F301-H303形成了类似于mod6的结构,但是两个氨基酸的环却靠近(并不是mod6的远离平放),侧链平放,也能导致活性中心口袋变大,底物走向变为大头双环朝向Fe的左右构象,结合能也大大下降,变为-9.24 kcal/mol,这也是一种优势构象。
图5.11 突变一与苯并(k)荧蒽对接结果
Fig5.11 Docking results of the mut 1 and benzo (k) fluoranthene
2)从图5.11看来,H303和F301的侧链其实对底物的空间位阻还是很大的,针对这种情况,我们将H303和F301均突变为丙氨酸A,得到mut2,让侧链的空间位阻降到最低。对接结合能为-9.78 kcal/mol,从结果看来,改变不是很大,一方面是因为F301-H303的侧链不仅仅是一个空间位阻,还有一个把底物向Fe推的作用,现在侧链消失,底物分子C1和C2到Fe距离增大(具体数值见表5.2)。
图5.12突变二与苯并(K)荧蒽对接结果
Fig5.12 Docking results of the mut 2 and benzo (k) fluoranthene
3)为了保留H301的把底物向Fe推的作用,所以不突变H301,把N303突变为A303,得到mut3。对接结果见图5.13,结合能为-10.17 kcal/mol,结合能相较mut2有所下降,证明2)中推测是正确的,H301确实能够将底物分子向上推。从图中可以看出,C1和C2到Fe的距离由原来的变为现在的,具体数值见表5.2。
图5.13 突变三与苯并(K)荧蒽对接结果
Fig5.13 Docking results of the mut3 and benzo (k) fluoranthene
4)从上图可以看出H301的环的并不平放,空间位阻依旧很大,所以在mut3的基础上我们突变H301为F301, 得到mut4,争取得到平放侧链的构象。 对接结果结合能为
-10.88 kcal/mol,从图5.14可以看出,F301的苯环确实稍微平放了,在造成空间位阻减小的同时,还能恰到好处地将底物推到合适的位置。从结合能来看,和mut2相比也确实下降很多,结合得更加稳定了。
图5.14 突变四与苯并(K)荧蒽的对接结果
Fig5.14 Docking results of the mut4 and benzo (k) fluoranthene
为了进一步分析mod1活性中心的氨基酸对活性口袋和底物的影响,在结合能最低的mut4的基础上再突变离活性中心较近的4个氨基酸,并考察结果。
① 在mut4的基础上,将A412突变为D412,得到mut5,结果见图5.15~5.16。从图中可以看出,该底物的构象与正常的大头双环朝Fe不同,变成了小头单环朝Fe,并且结合能也有所降低,为-10.58 kcal/mol。分析原因,是因为一方面A412突变为非疏水之后,与底物分子的吸引减弱了,底物分子向Fe靠近,但Fe附近口袋空间不足,容纳不下双环,同时L257侧链外翻,使远端活性口袋变大,导致底物翻转。蓝色为外翻的侧链。
图5.15 突变五与苯并(K)荧蒽对接结果
Fig5.13 Docking results of the mut 5 and benzo (k) fluoranthene
图5.16 正常与外翻的侧链对比
Fig5.16 the comparison of the normol and eversion side chain
②mut6,将L364突变为F364 ,L364处于Fe旁边,如果突变为疏水性更强的F364,一方面输水作用增强,底物向Fe移动,另一方面空间位阻增大,阻碍底物向Fe靠近,而且对接结果结合能为-10.68 kcal/mol,较mut4的结果有所升高,就是这个原因。结果见图5.17。
③ mut7,将 L257突变为I257,结合能变为-10.61 kcal/mol, 升高,将L突变为I,其实效果不大。结果见图5.17
④ mut8 ,将V213突变为T213,结合能升高为-10.61 kcal/mol,在此状态下,可
以看出,该构象与mut2的相比,向Fe翻转了3.5度,C2离Fe近了0.1?。此氨基酸突变后往往能够将底物分子往Fe处翻转。结果见图5.17。
图5.17 突变六、七、八与苯并(K)荧蒽对接结果对比 Fig5.17 Docking results of the mut 6,7,8 and benzo (k) fluoranthene
从上图5.17可以看出,L364、L257、V213的突变都只能造成轻微的改变,对底物分子的构象没有决定性的作用。
表5.2 突变结果统计 Table5.2 the result of mutant
突变 Mut1 Mut2 Mut3 Mut4 Mut5 Mut6 Mut7 Mut8
突变前 H301、N303 H301、N303 H301、N303 H301、N303 H301、N303、A412 H301、N303、V213 H301、N303、L257 H301、N303、L364
突变后 F301、H303 A301、A303 H301、A303 F301、A303 F301、A303、D412 F301、A303、T213 F301、A303、I257 F301、A303、F364
结合能 C1到Fe的距(kcal/mol) 离(?) -9.24 2.2 -9.78 3.1 -10.17 3.0 -10.88 3.2 -10.61 3.2 -10.61 3.1 -10.58 3.1 -10.68 3.0
C2到Fe的距
离(?)
3.0 3.5 3.3 3.7 3.3 3.5 3.5 3.4
综上所述,对JM-2来说,在对活性中心有重要影响的7个非保守氨基酸中,只有H301、N303、A412属于关键氨基酸,这些氨基酸的突变会对底物分子在活性中心的走向有重要影响。 5.2.2结果验证
为了验证上述mut1~mut5与底物的作用规律,将其与12号底物(BbF
正在阅读:
蛋白质3D建模,酶与底物分子模拟对接 autodock - 图文11-07
徐小彬小学五年级数学试卷分析04-24
凉风小学“小菜园大德育”校内外实践基地创建实施方案12-07
七年级上册数学试题及答案03-19
福州市学前教育行业企业名录2018版1320家 - 图文07-04
2017-2018学年江苏省常州一中高二期初质量调研物理试卷08-14
2022年中山大学国际关系学院910国际政治学考研仿真模拟五套题04-11
人教版五年级数学下册第四单元 真分数和假分数ppt04-21
郡县制与分封制的区别12-23
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 对接
- 建模
- 蛋白质
- autodock
- 分子
- 模拟
- 图文
- 医疗安全(不良)事件考试题
- 中考语文总复习专项训练--名名句默写;字音、字形、查字典
- 建筑冷热源试卷题-13
- Exchange 2000 邮件系统解决方案
- 化学与能量
- 关于缺陷管理工具Mantis的介绍
- 2017年一级建造师市政工程真题及答案解析
- 抢劫案侦破纪实“1.15”特大抢劫信用社案
- 小学英语质量分析
- 英美文化课本习题答案
- 社会工作督导
- 深港版小学英语三年级(上)期末试卷听力材料与答案
- SAP-MM物料主数据
- 精编会计基础必背知识点资料
- 为什么当今社会还存在剥削现象
- 用谓词性词语作主语的句子
- 建筑工程安全防护文明施工措施费用及使用管理规定
- 国家标准GB50160中有关安全距离列表 - 图文
- 2013级各专业本科《病理生理学》试题 A卷
- 监狱警察--传统文化