关于DNA序列分类方法的讨论及研究 - 图文

更新时间:2023-09-11 22:00:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

关于DNA序列分类方法的讨论及研究

孟肖丽 薛刚 张振利

关于DNA序列分类方法的讨论及研究

一、摘要: 研究DNA全序列是生物信息学最重要的课题之一,关于DNA序列分类方法现有许多方法,而本文采用统计的方法对DNA从“不同序列中A、C、G、T四种碱基含量不同”和“不同序列中氨基酸的含量不同”两个方面入手。

针对“不同序列中A、C、G、T四种碱基含量不同”建立多元线性回归方程(本文称为评判方程),根据A、B两类DNA的A、C、G、T四种碱基含量分别建立第一评判方程f1?0.005315xa?0.003195xc?0.005832xg?0.003592xt,第二评判方程

f2?0.003274xa?0.005304xc?0.00089xg?0.009638xt,其中

xi(i?a,g,c,t)表

示A、C、G、T四种碱基在序列中含量,其系数采用含量百分比的方差。为了区分出A、B,我们定义如下评判准则

(1)如果第一评判方程f1?0.5,则该序列为A类;

(2)如果第一评判方程f1?0.5,则根据第二评判方程区分A、B类: ①若f2?0.5,则该序列为B类 ②若f2?0.5,则该序列为A类

根据以上评判标准,将21- 40分类的结果:

A类:22、23、25、27、28、29、34、35、36、37 、38 (11个) B类:21、24、26、30、31、32、33、39、40 (9个)

由于上述方法分类比较“粗粒化”,对该模型进行改进,改进方法:对评判方程

xi(i?a,g,c,t)系数作改进,采用含量百分比的标准差作为系数,得到第一评判

方程f1?0.057216xa?0.072828xc?0.02983xg?0.098174xt和第二评判方程

0f20?0.0729xa0?20.0565xc2?50.0763xg6?70.0599xt3,评判准则定义如下:6

(1)如果f1?f2?0,则该序列为A类; (2)如果f1?f2?0,则该序列为B类;

根据以上评判标准,将21- 40分类的结果

A类: 22、23、25、27、29、30、34、35、36、37、39 (11个) B类: 21、24、26、28、31、32、33、38、40 (9个) 为了检验该模型的建立是否符合实际情况,我们引入相关系数,观察四种碱基相关性的强弱,根据上述评判标准,对21—40进行分类,所得的相关系数与用于进行分类的A和B的相关系数在一定程度上是符合的(具体见模型检验部分),因此该模型的建立虽存在一些误差,但仍具有可行性。

为了检验该模型的有效性,将A、B两类中A,C,G,T四种碱基的含量代入评判方程进行检验,检验结果均符合评判标准,故该分类方法是准确有效的。

针对“不同序列中氨基酸的含量不同”根据统计的结果只给出评判准则:

0000 - 1 -

关于DNA序列分类方法的讨论及研究

孟肖丽 薛刚 张振利

s设jk为在第s序列中第一个氨基酸的初始碱基在该序列的位置,其中k的取值为0,1,

2,分别表示在第一个位置,第二个位置,第三个位置,当s一定时,k分别取0,1,2时, 若精氨酸含量+甘氨酸含量>亮氨酸含量+苯丙氨酸含量,则为A类; 若精氨酸含量+甘氨酸含量<亮氨酸含量+苯丙氨酸含量,则为B类.。 根据上述分类方法,将21- 40分类的结果如下: A类:21、25、27、28、31、32、33、36、38、39 B类:22、23、24、26、30、35、37 无法分类:29、34、40

关键词:统计 方程 方差 标准差 碱基 氨基酸 二、问题重述

2000年6月,人类基因组计划中DNA全序列草图完成,而作为研究DNA序列的结构的尝试,提出了以下对序列集合进行分类的问题:

(1)下面有20个已知类别的人工制造的序列(见附录1),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):

A类 ; B类 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。

(2)在同样网址的数据文件NaT-model-daTa 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 三、问题分析

1.当讨论该问题时,题目要求给出了碱基序列,因此我们首先对单个碱基的规律进行分析,具体情况如下:

首先,明确该问题是关于构造DNA分类方法,由此可根据已给出的分类A类和B类,从中提取特征,构造分类方法,来判断21—40组的分类,同时并对NaT-model-daTa 中182个自然DNA序列进行划分。

其次,在构造分类方法时,可以观察到A类当中以A开头的居多,而B类当中却是以GT开头,但是21—40组的数据当中,此规律并不明显,由此可以想到利用A类和B类当中A、C、G、T分别所占的百分比,但为了能更好的体现总体反映情况,在A类和B类当中,对其A、C、G、T的含量百分比求方差。

再次,由其方差分类现象也并不明显,联想到回归分析的目的之一是对因变量进行合理的预测,若回归方程通过了各项统计检验,则估计出参数的回归模型就可以用于对因变量的预测,因此建立多元线形回归模型,建立评判方程,找寻评判标准,来划分21—40组,并对NaT-model-daTa 中182个自然DNA序列进行划分。

最后,根据其相关系数,即度量实际变量之间相互关系的重要数据特征,来进行检验,并对整个模型进行评价与推广。

2.在现实生活中,各种生物的存在性状均以蛋白质的形式表现出来,而氨基酸却是构成蛋白质的基本单位,因此模型建立时引入氨基酸的种类作为评判标准,其更具有现实意义。

各种生物遗传性的差异是由DNA分子上碱基排列的差异造成的,而由DNA分子的碱基序列所决定的遗传信息,当传递到具有相应序列的信使RNA(mRNA)分子上时,从而决定相应

- 2 -

关于DNA序列分类方法的讨论及研究

孟肖丽 薛刚 张振利

的氨基酸序列,以达到合成蛋白质分子的目的,使基因所控制的性状得以表达。可见,蛋白质的编码是由于DNA决定的,而在DNA中,其基本单位为碱基,其中A、T、C、G任意3个碱基可以合成一个氨基酸,共有64种情况出现,可分为20种氨基酸。而这20种氨基酸直接构成蛋白质,不同的组合构成不同的蛋白质。从而,在对DNA序列分类时,应考虑A、B组DNA的氨基酸含量。

由于组成氨基酸的碱基个数为3,为了找寻序列中各种氨基酸的含量,可以把序列中每三个碱基分成一组,但是题中所给序列只是某个DNA的片段,所以序列中第一个氨基酸的初始碱基可以是该序列的第一个碱基,也可以是第二个碱基,或第三个碱基,故找寻氨基酸的个数需要分三种情况:分别从前三个碱基中,以不同的碱基作为初始碱基,每三个为一组,由已给出的分类情况A类和B类,构造分类方法,即找寻各种氨基酸在总氨基酸的含量, 从而总结出规律,划分21—40组,并对NaT-model-daTa 中182个自然DNA序列进行划分。

四、符号说明

xi:表示A,C,G,T四种碱基在各条DNA中的含量,其中i分别取a,g,c,t;

a,b,c,d:表示A,C,G,T四种碱基含量百分比的方差;

jks:表示在第s序列中第一个氨基酸的初始碱基在该序列的位置,其中k的取值为0,

1,2,分别表示在第一个位置,第二个位置,第三个位置;

a0,b0,c0,d0:表示A,C,G,T四种碱基含量百分比的标准差;

五、 模型假设

1.假设待分类样本21—40中均不属于A与B类的样本百分比不超过5%;

2.区分A、B类时,只从A,C,G,T四种碱基的含量考虑时,其他因素的影响忽略;只从氨基酸的含量考虑时,其他因素的影响忽略。 六、模型建立与求解

(一)以碱基含量为研究对象时

1.评判方程的建立:

根据A类10组数据可以建立第一评判准则,再根据B类10组数据可以建立第二评判准则,准则的建立依据多元线性回归模型,建立多元线性方程,其形式为:

fk?axa?bxc?cxg?dxt?? (1)

其中,fk(x)为第k(k?1,2)评判标准,?为随机误差,由于对评判标准产生的影响很小,故忽略不计,则评判方程为

fk?axa?bxc?cxg?dxt (2)

各项系数a,b,c,d分别取碱基A、C、G、T含量百分比的方差。 A,C,G,T四种碱基在A类、B类中各条DNA的含量百分比见表6.1

(表6.1) 类别

序号 1 A 0.29729- 3 -

C 0.171171G 0.39639T 0.13513关于DNA序列分类方法的讨论及研究

孟肖丽 薛刚 张振利

A类 7297 2 3 4 5 6 7 8 9 10 0.27027027 0.27027027 0.423423423 0.234234234 0.351351351 0.351351351 0.279279279 0.207207207 0.181818182 0.354545455 0.327272727 0.254545455 0.3 15 16 17 18 19 20 0.2 0.290909091 0.363636364 0.354545455 0.290909091 0.218181818 171 0.162162162 0.216216216 0.108108108 0.234234234 0.126126126 0.099099099 0.162162162 0.207207207 0.272727273 0.045454545 0.027272727 0.1 0.081818182 0 0.081818182 0.245454545 0.118181818 0.145454545 0.172727273 6396 0.414414414 0.45045045 0.18018018 0.423423423 0.396396396 0.36036036 0.369369369 0.432432432 0.409090909 0.1 0.145454545 0.127272727 0.118181818 0.063636364 0.090909091 0.136363636 0.090909091 0.072727273 0.063636364 5 0.153153 0.063063 0.288288 0.108108 0.126126 0.189189 0.189189 0.153153 0.136364 0.5 0.5 0.518182 0.5 0.645455 0.463636 0.263636 0.5 0.563636 0.563636 B类 11 12 13 14 根据上表可以求出a,b,c,d的值,具体值见表6.2

(表6.2)

- 4 -

关于DNA序列分类方法的讨论及研究

孟肖丽 薛刚 张振利

类 系 数 别 A类 B类 a 0.005315 0.003274 b 0.003195 0.005304 c 0.005832 0.00089 d 0.003592 0.009638 将a,b,c,d的值代入方程(2),得评判方程 第一评判方程

f1?0.005315xa?0.003195xc?0.005832xg?0.003592xt

第二评判方程

(3)

f2?0.003274xa?0.005304xc?0.00089xg?0.009638xt

统计序列21-40中A,C,G,T四种碱基的含量,其结果见表6.3

(表6.3) 序列号 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 A 31 30 18 24 26 25 24 30 15 31 27 19 30 24 25 24 22 26 29 23 C 22 25 26 22 24 24 21 17 22 26 20 25 21 24 22 32 26 20 30 23 G 19 26 39 22 32 21 35 18 45 23 25 29 23 37 35 27 34 20 22 20 (4)

T 41 23 19 47 23 44 24 52 19 27 40 36 37 17 21 22 21 51 25 50 将各碱基的含量代人评判方程(3)和(4),其结果见表6.4

(表6.4)

- 5 -

本文来源:https://www.bwwdw.com/article/5w1h.html

Top