用判别分析的方法判定DNA序列的类别数学建模

更新时间:2024-05-11 21:43:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

用判别分析的方法判定DNA序列的类别

摘 要

判别分析法是多元统计分析中的重要内容之一。近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词:DNA

数、错判率。

一、问题提出

序列、Fisher判别法、判别函

1.背景

人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂 ,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

2.问题

有20个已知类别的人工序列:A类,B类。

1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二.问题的分析

本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件: 1) 来源于已知样本。

2) 具有给予未知类别的DNA序列分类的功能。 3) 能较好的接受检验样本的检验。

全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。忽略以上特征,突出A、C、G、T在DNA序列中出现的频数,对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性,而在Fisher判别法,Bayes判别法,距离判别法等方法中,Fisher判别法条件更宽、更通用。

三、符号与假设

1、

主要假设

分析DNA序列时,不考虑A、C、T、G出现的顺序。 忽略碱基间间键的强弱、长短。

假设文中较小容量的子样能体现母体的一些统计特性。 认为DNA序列中A、C、G、T的出现是独立的。

DNA序列中A、C、G、T对DNA序列的影响是平等的。 将A类误判为B类与将B类误判为A类的损失是相等的。

(1) (2) (3) (4) (5) (6) 2、

符号的说明

协差矩阵 判别区域 判别效率 判别函数

随机向量母体 随机向量的均值

分别为标准正态分布的分布函数与分布密度 矩阵的逆

向量u的转置

Vi(i=1、2): Di(i=1、2): △(u): W(y)、u(y): ∏1、∏2: Ei( i=1、2): Ф(u),ф(u):

V-1: uτ:

四、模型的建立

1 模型的提出(Fisher判别准则)

Fisher判别准则是借助于方差分析的思想来导出判别函数,此判别函数可以是线性的,也可以是一般的Borel函数。

设有两个母体∏1、∏2,相应的均值、协差阵分别为E1、E2 与V1、V2;任取一样本个体y(n维向量),考虑其线性函数u(y)=uτy(其中u为已知的n维向量),则在y来自∏i条件下均值与方差分别为 ei =E(u(y)︱∏i)=uτEi i=1、2 v i2=V(u(y)︱∏i)=uτVi u i=1、2

令B0= E0=

Fisher准则是适当选择u,使得 △(u) =B0/E0达到最大,此△(u)称为判别效率。 一般地,我们有

引理1 若V1+V2的逆存在,则Fisher准则下的线性判别函数与判别效率分别为

u(y)=yτ(V1+V2)-1(E1-E2) △(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)

故 u=(V1+V2)-1(E1-E2)

证明:见《多元统计分析引论》(方开泰,第四章定理3、1的系) Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量 而对u(y)(一维随机变量)的讨论包含在距离判别法中。

引理二 设有两个母体 ∏1、∏2 , 它们的均值、协差矩阵分别为 E1、E2 和V1、

V2 ,令Di={y: d2(y, ∏i)≤min d2(y, ∏j) ,j≠i} i=1、2 则距离判别规则为y∈∏i , 若y落在Di内, i=1、2

引理3 在引理1、2的前提与假设下,若V1=V2=V,

则有D1={y: (y-(E1+E2)/2)τV-1 (E1-E2)≥0},

D2=Rn-D1;

其中 n为随机向量变维数,W(y)= (y-(E1+E2)/2)τV-1(E1-E2)为判别函数。 由引理1,引理2,引理3很容易推得

定理1 在引理3的前提与假设下,对∏1、∏2 有相应的判别区域

D1={y: uτ(y-E)≥0}

D2={y: uτ(y-E)<0}=Rn-D1 此 E=(E1+E2)/2。

2、模型的建立 (1)、特征的提取

令∏1、∏2 分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体,以片段长为110的DNA序列中所含A、C、G、T的频数(平均而言)为此序列的数字特征,其构成一四维向量(A,C,G,T)。 因母体 ∏1、∏2参数未知,故需通过检验样本来估计 令V1=1/(n1-1)×S1 V2=1/(n2-1×S2

此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量(n1=10=n2) 故V1+V2=1/(n1-1×S1+ 1/(n2-1×S2=(S1+S2)/9

(2)、附加信息的检验

两个母体 ∏1、 ∏2 ,它们的分布分别为N4(E1,V1) N4(E2,V2),4为维数 需检验H0 :E1=E2

当H0被接受时,则区分这两个母体是无意义的,建立判别函数也没意义的。当H0被否定时,这两个母体是可以区别的,检验的H0似然比统计量为∧=|E|/|E+B| 其中 E=S1+S2,B=n1*n2/(n1+n2)(E1-E2)(E1-E2)τ (E1, E2 分别表A、B类检验样本的均值) 故∧=0.1293 (因为∧=|E|/|E+B| )

它遵从 ∧(4, 18,1) (m=4,n=20,k=2 ) ,查表得∧0.01(4,118,1)=0.433867, ∧<∧0.01 高度显著,故A、B两类的指标有明显的差异,将这四组特征提取并区分A、B类

是有道理的。

(3)、判别函数和判别规则的确定

我们采用Fisher判别的方法,在Fisher准则下,E1,E2可 由检验样本的统计量来估计。由于V1≠V2 ,故采用加权因子法,用 (V1+V2)/2 来估计V,设E=(E1+E2)/2 故得判别函数 W(y)=(y-E)τ((V1+V2)/2)-1(E1-E2)

判别规则为: y∈∏1, 若 W(y)>=0

y∈∏2,若 W(y)<0

判别程序D为D=(D1,D2),其中

D1={y | W(y)>=0}, D2={y | W(y)<0} 。 3、模型的改进

令c、r1、r2为参数(c>0,r1+r2=1,r1>=0,r2>=0), W(y)=(y-E)τ[(S1×r1+S2×r2 )/9]-1(E1-E2)- 取c=18、r1=5/6、r2=1/6

得新的判别函数W(y)=(y-E)τ[(S1×5/6+S2×1/6 )/9] -1 (E1-E2)-log18,

此时判别规则为: y∈∏1, 若 W(y)>=0

y∈∏2,若 W(y)<0

判别程序D为D=(D1,D2),其中

logc,

c、r1、r2的取值有上述模型对检验样本的检验估算出。

D1={y | W(y)>=0}, D2={y | W(y)<0}。 4、模型的求解:

制作Mathematica软件包将待判样本个体y逐一代入。

五、模型的检验与应用

(1)、对训练样本的判别归类情况如下:

序号 理论 实际 评判 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 11116 7 8 9 20 A A A B A A A A A A B B B B B B 一致 B B B B B B B B B B 一一一一致 致 致 致 一致 A A A A A A A A A A B B B B 一致 一致 一致 不同 一致 一致 一致 一致 一致 一致 一致 一致 一致 一致 总的历史拟合率为(10+9)÷20=95% (2)、对序列归类判别

利用改进的判别函数W(y)解答问题1、2的结果如下:

问题1(按序号大小排序):

A类:22,23,25,27,29,34,35,36,37; B类:21,24,26,28,30,31,32,33,38,39,40;

问题2(按序号大小排列):

A类:5,7,8,9,10, 12, 13,14,15,16,17,18,19,20,21,27,28, 32,

34,35,36,38,40,41,42,43,47,49,50, 51, 52,53,58,59,

60,61,63,65,67,71,73,74, 75, 77,79,83, 84, 86,87, 88,89,93,96,97,98,99,100,102,104,106,109,112,114,116,117,119,120,121,127,128,130,136,138,141,143,146,147,150,151,152,154,155,158,171。(共84条)

B类: 1, 2, 3, 4, 6,11,22,23,24,25, 26,29,30, 31, 33,37, 39,

44,45,46,48,54,55, 56,57,62, 64, 66, 68,69, 70, 72,76,78, 80,81,82, 85,90,91, 92,94,95,101, 103,105, 107,108,110,111, 113, 115,118,122,123,124, 125,126,129,131,132, 133,134, 135,137,139,140,142,144,145,148, 149, 153,156,157,159,160,161,162,163,164, 165, 166,167,168,169,170,172, 173,174,175,176, 177,178,179,180,181, 182。 (共98条)

5、Fisher准则下误判概率求解与分析

给定一个判别程序D=(D1,D2),在执行中总会有两类可能的错误发生: 第一类错误是将本属于1类的个体判归于2类,其误判的概率为 P1(D)=∫D2 f1(x)dx

第二类错误是将本属于2类的个体判归于1类,其误判的概率为 P2(D)= ∫D1 f2(x)dx

其中f1(x)、f2(x)分别表Π1、Π2 的分布密度函数, 误判概率大小是衡量一个判别好坏的重要标志。

(1)、用Fisher判别方法会发生误判

如:y来自 ∏1 ,却有W(y)〈0

y来自 ∏2 ,有W(y)>= 0 如图:误判概率为图中阴影部分面积

如果Π1、Π2靠得很近,则无论用何种方法误判概率均很大,此时用判别分析意义不大。因此只有当母体的均值有着显著的差异才可作判别分析。 而附加信息的检验说明了将Π1、Π2分开是有道理的。

(2)、误(错)判概率的计算

引理4:当n1/n2 1 时,

P{(W(y)-4△(u))/√4△(u) ≤u|∏1}=Ф(u)+1/nф(u) [2(m-1)/√4△(u) -(m+1/4)u -u3/4]+o(n-2)

此m为向量的维数,△(u)为判别效率,n=n1+n2-2

ф(u)为标准正态分布密度,Ф(u)为标准正态分布函数. 证明见参考文献[1]。

从引理4可以看到Ф(u)是极限分布,第二大项为修正项,误判概率有如下性质:u<0时它为正;m=1时,它不依赖于△(u),当m>1时,它随△(u)增大-而减小; u<0时,它随m增大而增大。

这些理论结果与实际非常吻合。

在本题中 m=4, △(u)=(E1-E2)τ((S1+S2)/18)-1(E1-E2),令u= -√4△(u) 则:

P1(D)=P{W(y)<0 ∣∏1}与P2(D)=P{ W(y)>=0 ∣∏2}均很小(<0.005) 若设事前概率q1>0、q2>0(q1+q2=1)

犯第1、2类错误的损失分别为c1和c2,则对于给定的判别D,由误判引起的平均损失(风险)即为c1×q1×P1(D)+c2×q2×P(D) 特别当c1=c2=1时

其数值即为平均误判概率。 注:上述参数c=q2c1/q1c2;

对于c1≠c2情形,读者可参考文献[1]。

六、模型的评价与改进方向

1) 通过检验样本的回报情况来很看,判错的情况很少,因此说明将样本在这样的判别函数与规则下归类是合理的。

2) 通过对假设H0的似然比统计量的计算来论证数字特征的提取与DNA序列分类的合理性。

3) 对于一个新的DNA序列,通过上文给出的判别函数与判别规则计算它将落入哪一个总体,从而决定此DNA序列的其它特性,这为人类提供了又一种基因及其特征检验识别的方法。

4) 通过本文对错判概率的分析可以认为文中给出的判别分析法在某种程度上具有很高的分辨率。

5) 对DNA序列有效判别是多元统计分析方法在生物学中的又一重大应用。 6) 通过错判率与实际误判率的比较,说明理论与实际还是有一定的差距的。这根源于本容量(10个)较小,若将检验样本容量增大(>=50个),结果将更加合理。

7) 由于时间限制,本文没有论证抽取4个数字特征与抽取更少的数字特征(3或者2),孰优孰劣,但文中利用似然比统计量来论证假设的合理性这种方法可以做到这一点。

8) 本文在假设中忽略各种碱基之间键长及其键强对分类的影响,也忽略DNA序列中碱基排列顺序,而这些均是识别DNA序列的重要因素。

参考文献

1 张尧庭、方开泰 《多元统计分析引论》 科学出版社 1982年

2 雷功炎 《数学模型讲义》 北京大学出版社 1999年

3 李尚志 《数学建模竞赛教程》 江苏教育出版社 1996年

4 《应用概率统计》 华东师大出版社 2000年第16卷第3期

论文点评: (待写 )

本文来源:https://www.bwwdw.com/article/hc6g.html

Top