应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

更新时间:2023-07-29 18:53:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

生命科学趋势

2004年4月 第2卷 第1期 Trends in Life Sciences

应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法

李霞cd 饶绍奇ef 张田文c 郭政cd 张庆普c

J. TOPOLef Kathy L. MOSERg Eric

转载自:中国科学 C辑生命科学 2004,34(2):1-8

(c哈尔滨工业大学计算机科学系, 哈尔滨 150001; d哈尔滨医科大学生物医学工程教研室与生物信息研究室,哈尔滨 150086; e Center for Cardiovascular

Genetics, Department of Cardiovascular Medicine, the Cleveland Clinic Foundation, 9500 Euclid Avenue, Cleveland, Ohio 44195, USA; f Department of Molecular

Cardiology, the Cleveland Clinic Foundation, 9500 Euclid Avenue, Cleveland, Ohio 44195, USA; g Department of Medicine, Institute of Human Genetics, University of

Minnesota, Minnesota 55455, USA)

*

责任编辑:TILS

摘要:DNA芯片技术的迅速发展,可同时检测成千上万个基因的表达谱数据,为生物科学家们从一个全新的

角度阐明生命的本质提供了可能性。目前,基因表达谱分析的工作大多集中在对癌症等疾病分类、疾病亚型识别

等,而从这些基因表达谱信息中挖掘反映疾病本质特征的相关基因,是一项在后基因组时代更具挑战意义的科学

研究,基因挖掘由于缺少理想的数据挖掘技术而被忽视。在本文中我们提出了一种新颖的特征基因挖掘的集成决

策方法,目的在于解决三个重要的生物学问题:生物学分类及疾病分型,复杂疾病相关基因深度挖掘,和目标驱

使的基因网络构建。我们成功地将此集成决策方法应用于一套结肠癌DNA表达谱数据。结果显示这一新颖的特征

基因挖掘技术在应用DNA芯片数据分析、挖掘复杂疾病相关基因等方面具有很高的价值。

关键词:基因表达谱 集成决策 递归分类树 特征识别

1: 研究背景

应用DNA芯片技术可以在一次实验中同时检测成千上万个基因的表达谱数据。 这些基因的表达谱数据为生物体

提供一定时空上的生命快照,它映射了生物体在四维空间(时间和三维生物体)某一特定横切面上基因的活动规

律。近年来,尽管基因芯片这一创新生物学技术为我们探索生命的奥秘找到了新的切入点[1, 2], 但发展高效的

基于芯片数据的分析方法和策略仍然是一项极其重要的工作。基因芯片数据挖掘技术涉及的学习算法可划分为无

监督学习和有监督学习两大类:以聚类分析为代表的无监督学习忽略样本的表型特征,直接分析基因表达谱数据,

是功能基因组学研究的一个有效工具,然而,这种方法不能有效地研究基因表达谱的变异与其表型的关系。相比

之下,有监督学习是一个目标引导(驱使)的过程,可采用一个适当的归纳算法,寻找一定目标意义下特征相关

基因。这些目标可能是生物类型分类、疾病亚型的划分;或是疾病相关基因的挖掘;或是研究疾病基因之间的网

络关系,构建目标驱使疾病相关基因网络。目前,大量的工作集中在关于生物类型分类和疾病诊断方面的研究,

__________________________________________

*国家自然科学基金委(项目编号:30170515和30370798),中国863计划(项目编号:2003AA2Z2051和2002AA222052)和哈尔滨医科大学211工程“十

五”计划

**联系人(E-mail: Lixia@ or raos@)

应用在基因组范围内的基因表达谱进行疾病基因挖掘和目标驱使基因网络的构建工作较少。由于基因芯片数据样

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

2 生 命 科 学 趋 势 第2卷

本数量少(以十或百计)、特征基因维数高(以千或万计)及芯片数据高信噪比的特点,最佳的芯片数据分析策

略应是通过识别相关基因和排除噪音特征降低特征基因的维数。目前,识别相关基因方法有不同种[3-8],其中

基于决策树的方法对基因芯片等遗传数据分析或更广的领域[9, 10]是最佳的方法之一。其主要原因是决策树可

同时对样本和特征基因进行分析,因而非常适合揭示隐藏的遗传异质性[11, 12], 人类遗传学研究中一个悬而未

决的课题。

在这篇文章中,我们将提出一种新颖的基于决策树的疾病基因挖掘的集成方法,用于生物类型分类和疾病基

因挖掘。首先,我们的目标是识别一个最佳特征基因子集,使得以此集为特征提高生物类型(例如肿瘤与正常组

织)鉴别的准确率,亦称生物类型预测问题。目前,一类主要的对单基因选择方法是过滤(Filter)法,如排秩

(Rank)、信息增益(Information Gain)、马尔可夫毯(Markov Blanket)和边际过滤法等[13-15]。该类过滤方

法独立于最终用于预测的分类方法,因而,不能肯定选入的特征基因是否可以改善最终的生物学分类。另一类特

征基因挖掘的方法是缠绕法(Wrapper)法,以及过滤法与缠绕法的混合(Hybrid)方法等[16, 17]。在缠绕法,

特征基因选择的算法是作为一个围绕归纳算法的缠绕器,归纳算法既用来搜寻有效的特征基因子集,其本身又是

特征基因的评价函数。这种归纳算法可用于基因芯片数据,通常基因芯片数据被人为地分割为内源性学习样本和

外源性检验样本。具有最高评价的特征基因子集被选为最后的集合以创建一个模式分类器。由于通过缠绕器选择

特征基因子集能够与分类器的决策机制很好地吻合,对检验样本的划分可获得最高的准确率。因此,在我们的集

成决策方法中采用了一个基于决策树的缠绕器。第二,在这篇文章中,我们提出的基因挖掘新方法不仅仅是为了

获得最高的分类准确率,我们试图识别与疾病本身有强相关的基因。有些人认为这二个目标是等价,我们将在后

面的实际例子阐明这二个目标本质上的不同。换句话说,用于预测的最佳基因子集未必是映射复杂疾病的复杂遗

传机制的基因功能子集,或者,可以肯定的说这一基因子集不能捕获这一复杂遗传机制的全貌。为挑战这一课题,

我们引进了疾病相关基因的概念并定义评价疾病相关基因的相关性强度(数学描述在后面给出),我们可利用该

指标有效地区分完全相关基因、部分相关基因以及无关基因,在实际的基因芯片数据分析中(包含有成千上万个

基因的表达数据),大多数基因是与目标无关的,同时由于生物系统的复杂性,完全相关的基因亦是极少的,基

因挖掘的主要目的就是要寻找到这些完全相关或部分相关的基因。由于基因芯片具有高度的基因冗余性,以获得

最高分类准确率为目标的特征基因识别势必会造成大量的部分相关基因被排除,为克服这一缺点,我们提出新颖

的集成方法处理这些冗余的基因。我们将机器学习领域集成决策理论[18]整合到决策树中,在这种方法中,我们

通过重复取样技术产生训练集,由此创建大量的特征基因子集。然后根据每个基因在特征基因子集群中的分布,

以一个关联强度指标进行评价。尽管集成(Ensemble)决策理论对提高分类准确率取得了较大的进展,受到了普遍

关注,而应用集成决策技术进行特征基因挖掘还未见报道。

2: 方法

2.1 定义

假设某一微阵列实验,点有p个基因探针的DNA芯片检测n个DNA样品(样本)的表达谱数据可由n×p矩阵

X=(xij)[1, 2]表示,其中xij可代表第j个基因(gj) (属性变量) 在第i个样品(Xi) (观察个体)的表达水平。当

DNA样品属于已知类别时,每一个样品观察值数据由基因表达谱Xi=(xi1,Λxip)和类标签(yi)组成。假设DNA样

品属于K个类别ω1,ω2,L,ωK,对于K个类别,定义类标签yi为从1到K的整数,以nk表示第k(k=1,2,L,K)类

观察数。我们分别给出对疾病有鉴别意义的优化特征基因子集和疾病相关基因的概念:

定义1 给定一算法 I, 和具有p个基因{gj}, j =1, 2, …, p的表达谱微阵列数据集D, 来自离散表型空间

{ω1,ω2,L,ωK}的多元分布总体,若基于基因子集G′,微阵列样本的划分C=I(D)与观察表型分布有最好的拟合

(在特定的统计学意义下),即具有最小错分率,称G′是对疾病有鉴别意义的最优基因子集G′。

定义2 给定一个特征基因gj,若这个基因被包含在所有由DNA表达谱微阵列数据训练集归纳的分类器中,如将

它从任意一个分类器中剔除,将导致该分类器对疾病表型划分错分率增加,称gj是与疾病完全相关的;若特征

基因gj不是与疾病完全相关的和至少存在一个这样的特征基因子集G,依据G建立的划分的错分率高于依据

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

第1期 李 霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法 3 GUgi建立的划分的错分率,称gj是与疾病部分相关的;若gj既不是完全相关亦不是部分相关的,称gj是与疾

病无关的。

2.2 特征基因挖掘的集成决策方法

提出的集成特征基因挖掘方法是基于递归分类树的有监督学习方法. 基本思路是首先采用某种抽样策略(见下

文),由样本集构建不同分布结构的训练集{Ld}(d=1,2,Λ,m)和检验集{Td}(d=1,2,Λ,m),基于训练集

Ld(d=1,2,Lm)由递归分类算法生长二叉树,在树的每一分叉结点以类纯度指标最大与分类错误率最小为目标引

导识别最好的特征基因。这种二叉递归反复进行直至树增长停止。对每一增长的树,识别一特征基因子集Gd = {gd1dd,g2,Λ,gk},并由检验集Td进行检验。对每一对学习样本 {Ld}(d=1,2,Λ,m) 和 试验样本

{Td}(d=1,2,Λ,m)重复这一特征基因识别过程,得到一系列集成特征基因子集G1,Λ,Gd,Λ,Gm。按基于{Gd}建

立分类器的效能(在检验集上分类错误率)进行排秩,识别分类错误率最小的、具有分类学意义,即满足定义1

的最佳基因子集G′。由定义2,根据某一基因在分类效能达到特定显著水平的特征基因子集群中的分布,由与疾

病相关的程度识别疾病相关基因集G*。

2.2.1 构建训练集和检验集 构建训练集和检验集有许多方法,这里我们只介绍三种方法。最直接的方法是

Bagging[10] (Bootstrap aggregation的缩写),以原训练集为母版,在原样本集上采用有放回抽样,每次随机

抽取与原训练集等同大小的集合,称这种集合为原训练集的副本,由该副本作为训练集,余下的样本作为检验集。

由Bagging方法产生的训练集的特点是有的微阵列样本可能重复出现许多次,有的可能根本不出现;另一种构建

训练集的方法是n-倍(fold)交叉证实的方法[10],我们可随机将样本集分为近似的n等份,选取每一份作为检

验集,余下的n-1份作为训练集,循环n次,这种方法产生不相重叠的训练集和检验集;第三种方法采用无放回

随机抽样,每次抽取样本集的1/n作为检验集,余下的样本集作为训练集。

2.2.2. 特征识别算法 按照一种训练集的构建策略,将样本集划分为训练集(Ld)和检验集(Td)。在每对训练集

(Ld)和试验集(Td)上,我们创建和检验一个递归决策树[19, 20]。决策树是一个多级决策过程,在每一阶段需做

一次二叉划分。决策树由结点和分支构成,结点又分为内部结点和叶子(leaf)结点。内部结点可分划(产生)为

两个子结点,而叶子结点不产生任何子结点。对每一叶子结点赋给一个与其关联的类标签,落入该叶子结点的观

察样本被指定为属于相应的类别。为寻求一个最能改善分类正确率的特征属性基因子集,从包括所有训练集(Ld)

的根结点开始,在树的每个结点上对特征空间做一次穷尽搜索,寻找一个特征属性基因和相应的阈值(cutoff),

实施分叉,使得由此准则划分样本类别的杂质度最小。即在确定了一个最佳分叉后,根据每个样本个体Xi的属性

gj>cutoff或gj≤cutoff时,微阵列样本集相应地划分成左右两个不交叠的子集,称这些子集为源于父结点的

两个子结点。然后,再在这两上子结点上,实施同样的特征空间穷尽搜索和子结点划分。这一过程反复进行,直

至叶子结点或满足树增长停止规则。属性和相应阈值的识别准则是使得在一个结点的划分最大程度地降低类别杂

质度(寻找一种划分最大地减少在结点t的杂质度),我们采用Gini差异性指标(代价函数)为结点t的杂质函数:

E(t)=φ(P(ω1t),P(ω2t),L,P(ωKt))

=∑P(ωkt)P(ωlt)=1 ∑P2(ωkt).

k≠lk=1K (1) K通常P(ωkt)=pk=nk/n(k=1,2,L,K). 参量pk表示结点t中某一样品属于第k类的概率(频率),∑k=1pk=1。

因此,对给定结点,当所有类等同地混合于该结点时,其杂质函数最大;而当该结点只包含一个类时,其杂质函

数最小。

识别特征的过程是试图寻找一个最好的特征,使得在正在分叉的结点t这个分类层面上,杂质的减少量最大。

具体地说,在二叉树中,试图在结点t搜索特征基因及阈值,确定一个相应的划分s,使得该分叉在杂质函数中

给出最大减少量,用符号表示为

*

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

4 生 命 科 学 趋 势 第2卷

E(s*,t)=max E(s,t)=max(E(t) plE(tl) prE(tr)), s∈Ss∈S (2)

其中,E(tl)和E(tr)分别是左右分叉结点的杂质函数;而pl和pr分别是结点t中左右分叉事件的频率, 式中S是

结点t中分叉事件所有可能的方式集。

用最优分叉s,t被分为t′和t′′,并且在结点t这个分类层面上获得特征基因gt,再对结点t′和t′′实施与结

点t同样的搜索过程,直到树的增长停止,最终得到基于训练集Ld的特征基因子集Gd。

2.2.3 特征基因集合Gd的分类能力评价 为了检验一组特征基因集合(Gd)的分类能力是否显著,我们根据被正确

与错误分类样本的数目,构建显著性检验χ2统计量:

[|n00n11 n01n10| n/2]2n, χ=(n00+n01)(n10+n11)(n00+n10)(n01+n11)2* (3)

其中,n=n00+n01+n10+n11,n00,n01,n10和n11分别为真阴性,假阳性,假阴性和真阳性。该统计量服从自

由度为1的卡方分布。很显然,采用合适的显著性水平α,该检验可以减少无关基因被选为特征的机会。

2.2.4 特征基因的集成 采用上面提到的某种抽样策略,构建一系列不同分布结构的训练集,应用提出的方法

在构建的各训练集上重复实施同一特征识别方法,构建众多的特征识别器,由此得到一系列特征集合

{G1,G2,Λ,Gm}。对于给定的特征基因子集集成,识别其中的特征基因的方法和策略随目标而异。若以分类为目的,

特征基因的识别应以它所在的基因子集的分类能力为依据。最佳的、由训练集提取的基因子集应对它的姐妹对子

(检验样本)具有最高的分类效能。相比之下,由于疾病基因挖掘的目的是为了寻找疾病相关基因,而不是仅仅寻

找使分类器正确率最大化的特征基因,换句话说,为预测而识别的特征基因对预测重要,但对探讨疾病的复杂遗

传机制未必是重要的,而且识别有分类意义基因的策略往往可能漏掉某些部分相关基因。因为在基因芯片中许多

基因(功能基因团)的表达谱是高度相关的,以识别在分类意义上最优特征基因子集的策略无疑会排除这些生物

学上极为重要“冗余”基因。有鉴于此,我们在这里提出一种识别疾病相关特征基因的集成方法。一个特征基因

gj是否与疾病相关取决于它与疾病相关的程度FV(或称集成投票)。

对每个特征基因gk可定义关联强度:

FV(gk)=F(G1,G2,L,Gm)=

其中,FV∈[0,1],I(gk,Gd)是一个指示函数: ∑d dI(gk,Gd), d d (4)

1gk∈GdI(gk,Gd)= . 0otherwise

2权 d可为与基于Gd所建立的分类器的分类效能相联系的测度,例如,可取 d=χd (基于Gd所建立的分类器的

χ2值),最简单的情况是对所有基因子集取等权 d=1。

因为FV的分布通常是未知的, 为了决定最终被识别的特征基因的统计学上的意义。我们采用随机重排

(permutation)技术,对每一样本随机赋予类别标签(表型),利用随机重排数据,按前面计算FV(gk)同样的过

程计算FV(gk)产生经验零分布FV0(gk)。根据零分布FV0(gk),及选定的显著性水平β(如0.05或0.01),可

,在给定的显著性水平上,识别所有的特征基因。 以确定临界值FVβ0,最终按FV≥FVβ0(单侧检验)

3 实例

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

第1期 李 霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法 5 我们在这里报道对一套在基因芯片领域著名的数据的分析结果。这套数据最初由Alon等人[21]分析,可从下列

网站获得http://microarray.princefon.edn/oncology/affydafa/index.htm/. 这套数据包含有62个组织样本

(40个肿瘤和22个正常组织)的2000个人类基因在Affymefrix芯片上表达的真值。首先,我们利用这套结肠

组织的数据说明我们提出的集成决策特征基因筛选法是如何识别结肠癌相关基因的。然后,我们比较了由集成决

策法选定的三个最佳特征基因子集,张等[20]选出的二个特征基因子集以及筛选的20个结肠癌相关基因作为预

测变量进行结肠组织类型分型的效果。

3.1基因挖掘:疾病相关基因的识别

我们采用5倍交叉证实(CV)抽样策略创建训练集和检验集。首先,结肠癌和正常组织样本被分别分为近似大小的

5个不重叠的子集,即结肠癌子集Di(i=1,2,Λ,5)和正常组织子集Ni(i=1,2,L,5)。Di和Ni的一个随机配对构成

一个检验集;剩余的所有样本构成一个训练集。一次5倍交叉证实抽样可产生25个训练和检验集对子。这样重

复CV抽样20次,我们共获得500对子。对每个对子,我们执行一次前述的特征基因识别过程。表1汇总了通过

分析500对子识别的结肠癌相关基因。为了筛选较优的基因子集,我们设定了三个显著水平(α0=0.1,0.05和

0.01)。只有满足以下条件的子集才被用来进行后续的特征基因识别:根据该子集,对外源性检验集的分类达到

0.05和0.01),我们对这500个基因子集{Gd}(d=1,2,L,500)上面某一显著水平。在每个显著水平下(α0=0.1,

进行了评价,并淘汰了没有达到显著标准的子集。然后,我们根据剩余的子集群计算了每个被识别基因的关联强

度。为了获得每个被选基因统计学显著性的测度,我们按照前节所述方法创建了在零假设前提下关联强度FV0的

分布。对应于显著水平0.01的经验阈值0.035,记作FVβ0=0.035(β=0.01)被用作结肠癌相关基因入选的标准。

没有一个基因达到与结肠癌完全相关的程度,可归咎于复杂的遗传异质性,并且提示可能存在导致结肠癌的

多条遗传通径。最强的相关基因是M26383(human monocyte-derived neutrophil-activating protein (MONAP)

mRNA, complete cds),出现在53%以上的树中(用三种选树的标准创建的森林)。据这样高的关联强度,我们可以

假定这个基因在映射结肠癌复杂(分子)病理机制的基因网络中必是起到一个中心枢纽的作用。分子生物学实验的

证据表明MONAP在多种人类肿瘤细胞系中总是高表达的[22]. 令人非常惊喜的是MONAP被多种信息测度列为头

号结肠肿瘤基因:信息增量(Information Gain)、方差总和(Sum of Variances)、二分规则(Twoing Rule)和Gini

指数, 或作为第二个最重要的基因:少数类总和(Summary Minority)

(http://genomics10.bu.edu/yangsu/rankgene/compare-alon-colon-cancer-top100.html), 但是奇怪的是这个

基因并不在由Student’s T检验找出的最重要的100个基因内(由RankGene软件所做的分析[23])。 由集成决

desmin, complete cds, 策分析挖掘的第二个最显着的基因(在选树的标准α0=0.01的情况下,位居第三)是human

它出现在基因森林38%以上的树中。毫不奇怪这个基因也被不同的信息测度列为头号最重要的基因(信息测度:少

数类总和(Summary Minority)、少数类极大值(Max Minority)和一维支持向量机(1-Dimensional Support Vector

Machine))或者是第二个最重要的基因(信息测度:信息增量(Information Gain)、方差总和(Sum of Variances)、

二分规则(Twoing Rule)和Gini指数(Gini Index). 值得进一步研究的另一个基因是T51849(tyrosine-protein

kinase receptor ELK precursor (Rattus norvegicus)), 按与结肠肿瘤关联强度排列第六位(α0=0.1或0.05)

或第九位(α0=0.01)。一个利用360位急性成淋巴细胞型白血病儿童的病理样本的大型生物芯片试验发现该基因

的表达与一个白血病亚型(E2A-PBX1)高度相关[24], 说明这个基因对多种癌症有一因多效(pleiotropic)的作用。

这套数据的分析亦支持我们的假设:集成决策分析能有效地提取“冗余”的基因。 一个极端的例子是R39465, 在

这个生物芯片试验中它被重复了二次。我们成功将这二个复制品提取出来,尽管按疾病相关强度它们的排列位置

有些差别。

表1. 在不同选择强度下特征基因识别效果的一致性。训练集和检验集由一个5倍交叉证实法创建。在该基因芯片中,有二个探针

对应于相同的基因(R39465)

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

6 生 命 科 学 趋 势 第2卷

α0=0.1

基因ID α0=0.05 基因ID α0=0.01 基因ID FV FVFV

M26383 0.534 M26383 0.590 M26383 0.630

M63391 0.384 M63391 0.380 T58861 0.476

T58861 0.340 T58861 0.368 M63391 0.400

D14812 0.308 D14812 0.346 D14812 0.352

R39465 0.290 R39465 0.308 R39465 0.352

T51849 0.168 T51849 0.218 Z24727 0.208

H55933 0.160 H55933 0.180 H55758 0.200

R39465* 0.142 H55758 0.150 H55933 0.186

H55758 0.134 R39465* 0.140 T51849 0.170

M69135 0.096 Z24727 0.124 T94993 0.148

Z24727 0.096 M69135 0.114 H44011 0.110

T65938 0.080 H78386 0.090 T62947 0.092

H78386 0.078 T65938 0.082 U14973 0.092

R87126 0.076 T94993 0.062 R39465* 0.082

U14973 0.072 H87465 0.060 M69135 0.078

T62947 0.064 U14973 0.060 T65938 0.062

H44011 0.060 H44011 0.058 M14539 0.044

H87465 0.056 M14539 0.050 U06698 0.044

M14539 0.040 M37984 0.042 M94630 0.044

T62947 0.038 T78323 0.040

3.2基因采矿:生物类型分类

我们同样利用结肠癌组织数据来探索集成决策法在生物类型分类上的用途。分析相同的数据便于我们说明两个目

标间(生物类型分类与疾病相关基因的识别)的差异。通过对基因子集群(集成或叫森林)的评价,即根据每个

子集对外源性检验集的分类效果,我们识别了三个分类效果最好的基因子集。由公式(3)算得,三个子集的的

卡方值均为9.1183(P =0.003)。子集1(Best Tree 1)包含四个基因:M26383(由人类单核细胞衍生的嗜中性

白细胞活化蛋白mRNA,MONAP),T51849(酪氨酸一蛋白激酶受体ELK前体),Z24727(人类原肌球蛋白同工型mRNA)

和H55758(人类alpha烯醇化酶)。子集2(Best Tree 2)亦包含四个基因:M26383,T94993(人类成纤维细胞

生长因子受体2前体),T58861(克鲁维酵母菌P605核糖体蛋白L30E)和R39465(真核起始因子,orycfolagus

。子集3(Best Tree 3)包含5个基因:M63391(人类肌间线蛋白基因),D14812(人类某一未知基因开cunicnlus)

放式阅读框mRNA),H44011(人类肌球蛋白重链),T58861和H55933(人类相对于酵母核糖蛋白L41同源物mRNA)。

作为比较,我们选取由Zhang等[20]通过一个递归分割树归纳的二个基因子集(Zhang 1和Zhang 2)。张等在进

行特征基因选择时将所有62组织样本都作为训练集。Zhang 1包含三个基因:M26383,R15447(人类Calnexin

。Zhang 2亦包含三个基因:X57206(肌醇三磷酸盐激酶同工酶的前体)和M28214(人类ras关联蛋白RAB-3B)

mRNA),T62947(60S核蛋白L24)和X15183(人类90K道尔顿热休克蛋白mRNA)。为了进一步研究二个目标间的

关系,我们亦应用所有的20个结肠癌相关基因建立一个分类规则。毫不奇怪,M26383在其中的四个基因子集中

作为最重要的预测变量,因为按照与结肠癌的关联强度,它排列第一。考虑到由于在特征基因识别和后来预测中

采用同样的方法或者是相同的归纳法则应用于基因识别和分析检验样本可能造成的识别偏差(过学习),我们采

用外源性交叉证实方法评价这6个子集,分类器与实施基因识别的归纳算法完全不同,具体地说,就是采用与前

述通过重复取样技术选择特征子集的相同的过程评价这六个子集,但此时不做特征提取工作。我们采用在基因芯

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

第1期 李 霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法 7 片分析中有着广泛应用前景的分类方法:Fisher线性判别函数(FLD),罗杰斯蒂非线性(Logit)回归(LNR),

马氏距离(MD)和K维最邻近法(KNN)。表2总结了这6个子集采用上述分类器对500个抽样的数据分析的平均

结果。我们将重点放在分类准确率和综合性能,推断6个子集对多个外源性分类器的适应性。

尽管或多或少有些变异,平均来说,四个由集成决策法识别的基因子集分类效果优于Zhang的二个子集。这

是我们所期望的,亦是我们投入大量精力发展创新方法的原因之一。根据这个外源性交叉证实的研究结果,很显

然,Zhang等[20]在他们研究中,远远过低估计了他们筛选的子集在分类结肠癌组织时的错误率。巧合的是,我

们的结果基本上与Ambroise和Mclachlan[3]的一致,即真实的分类错误率不容忽略,可达到14%以上。扼要地

说,(1)子集3分类效果最好,准确率达到85.7%。甚至优于将所有20个结肠癌相关基因作为预测变量的分类效

果。非常有兴趣的是,子集3并不包括M26383,它是与结肠癌相关强度最高的基因(2)由数据分析看来,与一

个目标高度相关并不是一个基因能否作为这个目标的预测变量的必要条件;(3)最后,我们应再强调一次:在这

20个相关基因中亦可能有“冗余”特征。尽管由这20个基因构建的子集对结肠癌组织预测分类效果很好,然而,

它既不是最经济的子集亦不是分类效果最理想的子集。事实上,提取“冗余”特征是集成决策分析生物芯片的主

要目标之一。

表2 比较由集成决策选拔的三个基因子集、Zhang等[20]鉴别的二个子集以及20个结肠癌相关基因作为预测子集,对结肠癌组织

的分类效果(分类准确率)。括号内为500次结果的标准差。 外部分类器 基因子集 FLD LNR MD KNN 准确率

0.792 (0.107)

0.742 (0.104)

0.882 (0.087)

0.728 (0.109)

0.776 (0.104)

0.871 (0.088) 0.826 (0.085) 0.794 (0.114) 0.866 (0.097) 0.829 (0.106) 0.767 (0.063) 0.765 (0.093) 0.776 (0.139) 0.823 (0.087) 0.904 (0.061) 0.579 (0.094) 0.681 (0.126) 0.724 (0.094) 0.635 (0.116) 0.824 (0.094) 0.835 (0.027) 0.578 (0.072) 0.740 (0.082) 0.887 (0.089) 0.757 0.796 0.857 0.679 0.741 0.812 总的性能 排序 4 3 1 6 5 2 Best Tree 1 Best Tree 2 Best Tree 3 Zhang 1 Zhang 2 20 genes

4 讨论

现有的特征基因(或子集)识别方法以预测或生物类型分型为目的,其基本策略是寻找这样单一的基因子集,使

得由它对生物类型进行预测,比如肿瘤组织与正常组织,达到最佳。由于这些方法本身固有的特性以及追求的目

标,大量的(基因之间)高相关基因或叫“冗余”特征被排除在“最佳”子集之外。然而,这些所谓的“冗余”

基因事实上对阐明复杂疾病的复杂遗传机制极为重要。他们可能是在某一生物、生化通路上相邻的基因(共调节

基因)或者是在不同的平行通道上的基因或者具有上位互作的基因。从严格的意义上说,以预测或肿瘤组织分类

为目的数学方法不能够有效地发现疾病相关基因和揭示在芯片上基因表达的神秘布局。因此,本文的主要目的之

一是为挖掘疾病相关基因提供一个高效能和可行的工具,这也是在后基因组时代主要的挑战之一。

我们提供的方法针对潜在的生物学复杂性之一是遗传异质性,它同时又是遗传连锁分析中一个辣手的问题[11,

12]。外在(表面上或临床上)“相同”的表型(如受累或正常)可能会由完全不同的遗传或非遗传原因引起的。

[2]一个典型的例子是利用基因组范围基因表达谱发掘新的肿瘤亚型。我们的基本思想是通过对样本抽样(表型的

不同组合)和利用树对样本和特征基因递归分割, 我们能够将遗传杂合的样本分割成相对同质性亚组,以至于

在某一亚组内,引起病例和正常对照组表型差异的遗传机制基本相同。通过大量的再抽样,我们有望捕获导致众

多复杂疾病亚型的多个基因通径。我们的分析策略事实上是Shannon等[11, 12]提出的方法的进一步扩展,他们

提出递归分割同胞对数据为相对同质的子集,使得在子集内利用回归检测连锁[25]可获得较高的效能。从另一个

角度考虑,我们新提出的方法是这样设计的,即将隐藏的各个疾病遗传通径一个一个挖掘出来,然后再将这些通

径整合在一起,从而获得该复杂遗传结构最佳的全貌。

我们的集成决策方法与随机森林(Random Forests)[9]有相似之处,比如,两种方法均采用树模型作为建树的

平台,但是,这二者之间有许多重要的区别。首先,研究的目标不同。我们的目标是生物类型分类或疾病基因采

矿,而随机森林侧重分类准确率的改进。这两种方法一经创建森林后开始分歧。在随机森林中,在大量的树创建

后,这些树被直接用来对最常见的类型进行投票,而在我们的集成决策法中,我们根据每一棵树对外源性检验样

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

8 生 命 科 学 趋 势 第2卷

本的分类效果,挑选最佳的基因子集。第二,随机森林的树是创建在随机选择特征空间的基础上。换句话说,随

机森林是以一维探索为基础的,因此它处理遗传异质性无效(其实它根本没有对隐芏的遗传亚型进行分离)。相

比之下,我们的集成决策方法是以二维(样本和特征)探索为基础的,是基于这样的假设:在研究的样本中可能

存在遗传异质性。第三,尽管随机森林方法已被广泛应用于分类问题,但它在生物芯片数据分析中的应用和识别

疾病相关基因方面并未见报道。事实上,这一创新方法是为提高分类的准确性和对噪音的鲁棒性。尽管作者对评

价一个特征变量的重要性提供了一个统计学的测度,但因为它是以分类为引导的[9],还不知道这种测度是否对

疾病相关基因识别也是一个有效的指标。众所周知,同时也为本研究所证实的事实是,特征的相关性并不意味着

它将被归属最佳特征子集(用于分类),同样特征的无关性也不意味着它不能作为最佳特征子集的一个元素用于

预测目的。我们认为:若应用随机森林挖掘复杂疾病相关基因,它在许多方面应作适当的调整和改进。

本研究揭示集成决策方法有望为我们通过分析由当代分子生物学产生的海量数据探索生命的奥秘。对一套著

名的芯片数据的分析说明这一新方法不但是生物类型分类同时也是挖掘疾病相关基因有效的工具。我们提出从多

组特征子集中识别重要的疾病相关基因,而每个子集又是根据它自身对目标的分类能力而被识别的。通过高效的

抽样技术产生大量不同结构的学习样本,可以肯定大部分的高相关基因或部分相关基因可被挖掘出来。在这部分

工作被完成之后,一个随之而来的工作是研究一个更复杂的生物学课题:这些基因是如何作用或相互作用,从而

导致我们所观察的表型?也就是所谓的目标专一性基因网络,正是我们目前研究的课题。

致谢 我们感谢二位匿名专家对本文初稿的评审意见。无论是对本文的修改或对我们进一步的工作都受益匪浅.

参 考 文 献

1

2

3

4

5

6

7 DeRisi, J L, Iyer, V R, Brown, P O. Exploring the metabolic and genetic control of gene expression on a genomic scale. Science,1997,278:680~686 Golub, T R, Slonim, D K, Tamayo, P et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science,1999,286:531~537 Ambroise, C, McLachlan, G J. Selection bias in gene extraction on the basis of microarray gene-expression data. Proc Natl Acad Sci U S A,2002,99:6562~6566 Bo, T, Jonassen, I. New feature subset selection procedures for classification of expression profiles. Genome Biol,2002,3:RESEARCH0017 Chow, M L, Moler, E J, Mian, I S. Identifying marker genes in transcription profiling data using a mixture of feature relevance experts. Physiol Genomics,2001,5:99~111 Hastie, T, Tibshirani, R, Eisen, M B et al. 'Gene shaving' as a method for identifying distinct sets of genes with similar expression patterns. Genome Biol,2000,1:RESEARCH0003 Li, L, Weinberg, C R, Darden, T A et al. Gene selection for sample classification based on gene expression data: study

of sensitivity to choice of parameters of the GA/KNN method. Bioinformatics,2001,17:1131~1142

Burke, H B. Discovering patterns in microarray data. Mol Diagn,2000,5:349~357

Breiman, L. Random forests. Machine Learning,2001,45:5~32

Breiman, L. Bagging predictors. Machine Learning,1996,24:123~140

Shannon, W D, Province, M A, Rao, D C. Tree-based recursive partitioning methods for subdividing sibpairs into

relatively more homogeneous subgroups. Genet Epidemiol,2001,20:293~306 8 9 10 11

应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法

第1期 李 霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法 9 12

13

14

15 Province, M A, Shannon, W D, Rao, D C. Classification methods for confronting heterogeneity. Adv Genet,2001,42:273~286 Mills, J C, Gordon, J I. A new approach for filtering noise from high-density oligonucleotide microarray datasets. Nucleic Acids Res,2001,29:E72 Hall, M. Correlation-based Feature Selection for Machine Learning. Hamilton: University of Waikato, 1998. PhD Thesis Blum, A L, Langley, P. Selection of relevant features and examples in machine learning. Artificial

Intelligence,1997,97:245~271

Kohavi, R, John, G H. Wrappers for feature subset selection. Artificial Intelligence,1997,97:273~324

Xing, E P, Jordan, M I, Karp, R M. Feature Selection for High-Dimensional Genomic Microarray Data. In: Machine

Learning: Proceedings of the Eighteenth International Conference, San Mateo, CA, 2001. San Fransisco:Morgan

Kaufmann

Dietterich, T G. Ensemble Methods in Machine Learning. In: Kittler J, Roli F eds. First International Workshop on

Multiple Classifier Systems, Lecture Notes in Computer Science, New York: Springer Verlag, 2000, 1~15

Guo, Z, Li, X, Rao, S. Analysis of Medical Data: An Introduction to Bioinformatics, Harbin, China: Harbin Publisher,

2001

Zhang, H, Yu, C Y, Singer, B et al. Recursive partitioning for tumor classification with gene expression microarray

data. Proc Natl Acad Sci U S A,2001,98:6730~6735

Alon, U, Barkai, N, Notterman, D A et al. Broad patterns of gene expression revealed by clustering analysis of tumor

and normal colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci U S A,1999,96:6745~6750

Kowalski, J, Denhardt, D T. Regulation of the mRNA for monocyte-derived neutrophil-activating peptide in

differentiating HL60 promyelocytes. Mol Cell Biol,1989,9:1946~1957

Su, Y, Murali, T M, Pavlovic, V et al. RankGene: identification of diagnostic genes based on expression data.

Bioinformatics,2003,19:1578~1579

Yeoh, E J, Ross, M E, Shurtleff, S A et al. Classification, subtype discovery, and prediction of outcome in pediatric

acute lymphoblastic leukemia by gene expression profiling. Cancer Cell,2002,1:133~143

Haseman, J K, Elston, R C. The investigation of linkage between a quantitative trait and a marker locus. Behav

Genet,1972,2:3~19 16 17 18 19 20 21 22 23 24 25

本文来源:https://www.bwwdw.com/article/wc2m.html

Top