用判别分析的方法判定DNA序列的类别数学建模

更新时间：2024-05-11 21:43:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

判别分析的方法有哪些推荐度：
相关推荐

用判别分析的方法判定DNA序列的类别

摘要

判别分析法是多元统计分析中的重要内容之一。近年来，人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用Fisher判别的思想，从变量检验入手，给出了对DNA序列进行不同分类的理论依据，并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知，本文所建立的模型分辨率高（95%），错判率低（<1%），简单而易于运行，适合于各种长度的DNA序列的分类，因此实用性强，有较高的理论价值，为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词：DNA

数、错判率。

一、问题提出

序列、Fisher判别法、判别函

1．背景

人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列，其中没有断句，也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的内容知之甚少，难以读懂，破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学最重要的课题之一。对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。

2．问题

有20个已知类别的人工序列：A类，B类。

1. 从中提取特征，构造模型，找出合适的分类方法，并用该法对另20个给出的未知类别的人工序列进行分类，要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二．问题的分析

本题重在从已知类别的DNA序列中提取某些特征，构造分类方法，提取的某些特征应满足以下条件： 1）来源于已知样本。

2）具有给予未知类别的DNA序列分类的功能。 3）能较好的接受检验样本的检验。

全部地考虑各种因素（如碱基的排列组合，碱基间的键强及键长等等），无法得到分类方法。忽略以上特征，突出A、C、G、T在DNA序列中出现的频数，对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性，而在Fisher判别法，Bayes判别法，距离判别法等方法中，Fisher判别法条件更宽、更通用。

三、符号与假设

1、

主要假设

分析DNA序列时，不考虑A、C、T、G出现的顺序。忽略碱基间间键的强弱、长短。

假设文中较小容量的子样能体现母体的一些统计特性。认为DNA序列中A、C、G、T的出现是独立的。

DNA序列中A、C、G、T对DNA序列的影响是平等的。将A类误判为B类与将B类误判为A类的损失是相等的。

（1）（2）（3）（4）（5）（6） 2、

符号的说明

协差矩阵判别区域判别效率判别函数

随机向量母体随机向量的均值

分别为标准正态分布的分布函数与分布密度矩阵的逆

向量u的转置

Vi(i=1、2): Di(i=1、2): △(u): W(y)、u(y): ∏1、∏2: Ei( i=1、2): Ф(u)，ф(u)：

V-1： uτ：

四、模型的建立

1 模型的提出（Fisher判别准则）

Fisher判别准则是借助于方差分析的思想来导出判别函数，此判别函数可以是线性的，也可以是一般的Borel函数。

设有两个母体∏1、∏2，相应的均值、协差阵分别为E1、E2 与V1、V2；任取一样本个体y（n维向量），考虑其线性函数u（y）=uτy（其中u为已知的n维向量），则在y来自∏i条件下均值与方差分别为 ei =E（u（y）︱∏i）=uτEi i=1、2 v i2=V(u（y）︱∏i)=uτVi u i=1、2

令B0= E0=

Fisher准则是适当选择u，使得 △(u) =B0/E0达到最大，此△(u)称为判别效率。一般地，我们有

引理1 若V1+V2的逆存在，则Fisher准则下的线性判别函数与判别效率分别为

u(y)=yτ(V1+V2)-1(E1-E2) △(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)

故 u=(V1+V2)-1(E1-E2)

证明：见《多元统计分析引论》（方开泰，第四章定理3、1的系） Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量而对u（y）（一维随机变量）的讨论包含在距离判别法中。

引理二设有两个母体 ∏1、∏2 , 它们的均值、协差矩阵分别为 E1、E2 和V1、

V2 ，令Di=｛y: d2(y, ∏i)≤min d2(y, ∏j) ，j≠i｝ i=1、2 则距离判别规则为y∈∏i , 若y落在Di内， i=1、2

引理3 在引理1、2的前提与假设下，若V1=V2=V，

则有D1=｛y: (y-(E1+E2)/2)τV-1 (E1-E2)≥0｝，

D2=Rn-D1；

其中 n为随机向量变维数，W(y)= (y-(E1+E2)/2)τV-1(E1-E2)为判别函数。由引理1，引理2，引理3很容易推得

定理1 在引理3的前提与假设下，对∏1、∏2 有相应的判别区域

D1=｛y: uτ(y-E)≥0｝

D2=｛y: uτ(y-E)<0｝=Rn-D1 此 E=(E1+E2)/2。

2、模型的建立（1）、特征的提取

令∏1、∏2 分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体，以片段长为110的DNA序列中所含A、C、G、T的频数（平均而言）为此序列的数字特征，其构成一四维向量（A，C，G，T）。因母体 ∏1、∏2参数未知，故需通过检验样本来估计令V1=1/(n1-1)×S1 V2=1/(n2-1×S2

此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量（n1=10=n2）故V1+V2=1/(n1-1×S1+ 1/(n2-1×S2=(S1+S2)/9

（2）、附加信息的检验

两个母体 ∏1、 ∏2 ，它们的分布分别为N4(E1,V1) N4(E2,V2)，4为维数需检验H0 ：E1=E2

当H0被接受时，则区分这两个母体是无意义的，建立判别函数也没意义的。当H0被否定时，这两个母体是可以区别的，检验的H0似然比统计量为∧=|E|/|E+B| 其中 E=S1+S2，B=n1*n2/(n1+n2)(E1-E2)(E1-E2)τ （E1, E2 分别表A、B类检验样本的均值）故∧=0.1293 (因为∧=|E|/|E+B| )

它遵从 ∧（4, 18,1） (m=4,n=20,k=2 ) ，查表得∧0.01(4,118,1)=0.433867, ∧＜∧0.01 高度显著，故A、B两类的指标有明显的差异，将这四组特征提取并区分A、B类

是有道理的。

（3）、判别函数和判别规则的确定

我们采用Fisher判别的方法，在Fisher准则下，E1,E2可由检验样本的统计量来估计。由于V1≠V2 ，故采用加权因子法，用 (V1+V2)/2 来估计V，设E=(E1+E2)/2 故得判别函数 W(y)=(y-E)τ((V1+V2)/2)-1(E1-E2)

判别规则为： y∈∏1, 若 W(y)>=0

y∈∏2,若 W(y)<0

判别程序D为D=（D1，D2），其中

D1=｛y | W(y)>=0｝， D2={y | W(y)<0} 。 3、模型的改进

令c、r1、r2为参数(c>0,r1+r2=1,r1>=0,r2>=0), W(y)=(y-E)τ[(S1×r1+S2×r2 )/9]-1(E1-E2)- 取c=18、r1=5/6、r2=1/6

得新的判别函数W(y)=(y-E)τ[(S1×5/6+S2×1/6 )/9] -1 (E1-E2)-log18，

此时判别规则为： y∈∏1, 若 W(y)>=0

y∈∏2,若 W(y)<0

判别程序D为D=（D1，D2），其中

logc，

c、r1、r2的取值有上述模型对检验样本的检验估算出。

D1=｛y | W(y)>=0｝， D2={y | W(y)<0}。 4、模型的求解：

制作Mathematica软件包将待判样本个体y逐一代入。

五、模型的检验与应用

（1）、对训练样本的判别归类情况如下：

序号理论实际评判１２３４５６７８９１０１１１２１３１４１５１１１１６７８９２０ＡＡＡＢＡＡＡＡＡＡＢＢＢＢＢＢ一致ＢＢＢＢＢＢＢＢＢＢ一一一一致致致致一致ＡＡＡＡＡＡＡＡＡＡＢＢＢＢ一致一致一致不同一致一致一致一致一致一致一致一致一致一致总的历史拟合率为（10+9）÷20=95% （2）、对序列归类判别

利用改进的判别函数W（y）解答问题1、2的结果如下：

问题1（按序号大小排序）：

A类：22，23，25，27，29，34，35，36，37； B类：21，24，26，28，30，31，32，33，38，39，40；

问题2（按序号大小排列）：

A类：5，7，8，9，10, 12, 13，14，15，16，17，18，19，20，21，27，28, 32，

34，35，36，38，40，41，42，43，47，49，50, 51, 52，53，58，59，

60，61，63，65，67，71，73，74, 75, 77，79，83, 84, 86，87, 88，89，93，96，97，98，99，100，102，104，106，109，112，114，116，117，119，120，121,127,128,130，136，138,141，143,146，147，150，151,152,154，155，158，171。(共84条)

B类： 1, 2, 3, 4, 6，11，22，23，24，25, 26，29，30, 31, 33，37, 39,

44，45，46，48，54，55, 56，57，62, 64, 66, 68，69, 70, 72，76，78， 80，81，82, 85，90，91, 92，94，95，101, 103，105, 107，108，110，111, 113, 115，118，122，123，124, 125，126，129，131，132, 133，134, 135，137，139，140，142，144，145，148, 149, 153，156，157，159，160，161，162，163，164， 165， 166，167，168，169，170，172, 173，174，175，176, 177，178，179，180，181, 182。 (共98条)

5、Fisher准则下误判概率求解与分析

给定一个判别程序D=（D1，D2），在执行中总会有两类可能的错误发生：第一类错误是将本属于1类的个体判归于2类，其误判的概率为 P1(D)=∫D2 f1(x)dx

第二类错误是将本属于2类的个体判归于1类，其误判的概率为 P2(D)= ∫D1 f2(x)dx

其中f1（x）、f2（x）分别表Π1、Π2 的分布密度函数，误判概率大小是衡量一个判别好坏的重要标志。

（1）、用Fisher判别方法会发生误判

如：y来自 ∏1 ，却有W（y）〈0

y来自 ∏2 ，有W（y）>= 0 如图：误判概率为图中阴影部分面积

如果Π1、Π2靠得很近，则无论用何种方法误判概率均很大，此时用判别分析意义不大。因此只有当母体的均值有着显著的差异才可作判别分析。而附加信息的检验说明了将Π1、Π2分开是有道理的。

（2）、误（错）判概率的计算

引理４：当ｎ1／ｎ2 1 时,

P{(W(y)-4△(u))/√4△(u) ≤u|∏1}=Ф(u)+1/nф(u) [2(m-1)/√4△(u) -(m+1/4)u -u3/4]+o(n-2)

此ｍ为向量的维数，△(u)为判别效率，n=n1+n2-2