医药数据挖掘

更新时间:2024-04-11 06:33:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

山西省中医药研究院

医药数据挖掘

Data mining in medicine

季海霞1

山西省中医药研究院 ,030012 ,2533360723@qq.com

1简介 ....................................................................... 1 2过程 ....................................................................... 1 3常用算法 ................................................................... 2

3.1 关联分析 ............................................................. 3 3.2 分类分析 ............................................................. 3

3.3 聚类分析 ............................................................. 4 3.4 时间序列分析 ......................................................... 4 3.5 决策树方法 ........................................................... 4 3.6 神经元网络技术 ....................................................... 4 3.7 粗糙集理论 ........................................................... 5 4在中医药领域的应用情况 ..................................................... 5

4.1 关联分析法 ........................................................... 5 4.2 典型的分类分析 ....................................................... 5

4.3 聚类方法 ............................................................. 5 4.4 时间序列分析 ......................................................... 6 4.5 决策树 ............................................................... 6 4.6 神经网络 ............................................................. 6 5结论与展望 ................................................................. 6 6 参考文献 ................................................................... 6

1

季海霞,女(汉族),山西朔州人,硕士在读,主要研究方向为中药和分子生物基因表达.

山西省中医药研究院

【中文摘要】数据挖掘是世纪末逐步形成的一个多种学科交叉的领域,至今已经普遍地应用在零售、医药、通讯、金融、航空、电子工程、旅馆等具有众多数据和需要数据深度分析的领域.本文从四个方面具体地介绍了数据挖掘的定义,过程,常见的数据挖掘算法和在中医药领域的应用情况。

【关键词】医药、数据挖掘、算法、应用

【Abstract】Data mining is a multi-disciplinary field gradually formed at end of the century, has been widely applied in the fields that have a number of data and need in-depth analysis of data including retail, pharmaceutical, telecommunications, finance, aviation, electronic engineering, hotels, etc. In this paper,from four specific aspects ,introduces definitions of data mining, process, common data mining algorithms and applications in the field of medicine. 【Key words 】medicine;data mining; algorithms; using

1简介

近来, 数据挖掘逐渐地引起了医药领域的极大关注, 其原因是医药数据的数量十分庞大, 且急需将这些数据快速而准确的转变成有用的医药知识和可以利用的信息, 从而可将获取的知识和信息广泛适宜的应用于各类医学应用实践中。并且数据挖掘作为数据库与人工智能交叉融合的高端信息处理技术,其在一定程度上可以帮助人们借助现代信息处理技术,获得隐藏在数据中反映事物的本质特点和预测事态发展趋向的有用知识,并且以这些知识为基础可以用来辅助科学决策。

数据挖掘最新的描述性定义是由Usama M .Fayy yad 等[1] 给出的:数据挖掘即数据库

中的知识发现、描述、统计、分析与利用,就是从大量的数据库中提取人们感兴趣的相关知识,这些知识是人们一开始未知的、隐藏的、密集的、模糊的、看起来似乎随机的信息,其表现为规则、概念、模式、规律等形式。也是从数据集中识别出有效的、新颖的、有潜在价值的, 以及最终可被理解的模式的非平凡过程。数据挖掘是一个多种应用学科有机交叉形成的广泛的领域, 其包括知识库系统、人工智能、数据库技术、机器学习、信息检索、统计学、神经网络、模式识别、高性能计算、知识获取、和可视化等相关内容。其任务大体上可分为描述和分析预测数据的进一步发展对事物的有效影响。

[4]

[3][2]

2过程

从医药技术的多重角度来看,数据挖掘的基本过程如下图1。

1

山西省中医药研究院

图1 数据挖掘的基本过程

并且在采集数据之后,抽样和清理之类的工作还需再进行。其清理的结果就是人们想

要得到的数据样本集。此外数据仓库的数据应用形式

[5]

也是一种数据存储的有效形式,对

数据挖掘应用方面极大的有利。然后,就可以应用各种算法来挖掘数据。但有的时候,还有需要返回到上一阶段的情况出现,重新将上述过程经历一遍或数遍。

3常用算法

数据挖掘的采用基本算法根据其挖掘方式的不同可以分为有教师型和无教师型两种形

式,也就是所谓的监督学习和非监督学习。首先在有监督学习算法中,先会给与一个教师信号,对训练的样本集中的每个输入样本能获得分类代价和类别标记,并且寻找能够降低总成本价值的方向。其次在无监督学习算法中却没有显式的教师。

数据挖掘包括很多算法,主要包括组合或关联、聚类、分类、估计、预测等等,如图

2所示。这些方法在实际应用时具有各自的特色和适用条件,具体使用哪种数据挖掘算法,还是要根据具体的情况和应用要求来选择。其中一种算法有可能在一种情况下适用,但是在另一种情况下却不太适用。

2

山西省中医药研究院

图2数据挖掘算法

3.1 关联分析

关联分析即是从大量的数据中来发现不同项或项集之间隐含的联系或相互关联。如果

两个或多个数据项之间的取值多次出现并且重复概率较高时,那基本上可以确定它们之间就存在着某种隐秘而必然的关联,利用此特点就可以建立这些数据项之间的关联规则。通常有用的关联规则一般需要满足设定的支持度和置信度这两个条件,前者是一组项集记作关联需要所要达到的最低联系程度方可,而后者则是一个关联规则的最低可靠程度。另外还可以加入相关性、应用性、兴趣度等有效参数来增加规则的潜在准确性和精确度。关联分析的目的则是查出数据库中隐蔽的交叉联系的网络,用来描述分析利用一组数据项目的关系和密切度。

3.2 分类分析

分类分析即是在已有数据的基础上制造出一个分类函数或分类模型。该函数或模型能

够把数据库中的记录映射到一个给定的类别中,再进行类别预测。例如,在临床的研究中,依据患者的不同体征和症状可把疾病分为三种:早期、中期和晚期。因此在进行类别分类分析时,首先从数据中选出已经分好类的数据集,再采用该数据集运用的数据挖掘分类技术来建立分类模型,最后对未分类的数据进行分类。

3

山西省中医药研究院

3.3 聚类分析

聚类分析即是将数据集分为若干研究对象, 并且使一组内的对象有着比较高的相似

度,而不同组内中的数据对象则没有明显的相似性。聚类分析的基本思想就是最大程度地出现组中数据对象相似度最大,同时组间数据对象相似度最小。其和分类分析的最大区别则是聚类分析并不依据类,也不需要训练集。在这些类事先并不知道的情况下,将并没有标识的数据对象自动划分为不同的类。

3.4 时间序列分析

时间序列分析即是指通过时间序列来搜索出重复发生率较高的模式,强调时间序列的

影响。例如在临床的研究过程中,在既往病史记录中分析并发现疾病的某种趋势规律,揭示其预测因子的回顾性研究。

在时序的模式中,我们需要寻找出在某个最小时间内出现的比率一直高于某一最小阈值的规则。而这种规则会因为形势的变化而自主调整。时间序列分析则有三个基本功能:一是模式挖掘,通过分析时间序列的往来形态来研究事态的行为特点;二是趋势分析,利用历史时间序列来预测数据的未来数值;三是相似性搜索,应用距离度量来确定不同时间序列的相似性。

3.5 决策树方法

决策树是一种简单的知识表示方法,将事例逐步分类成不同的类别。因为分类规则是

比较直观明白的,所以易于人们理解。其基本思想是以最能区分不同类别的样本属性作为树根,把训练集分为相应的节点,然后依次在每一块样本集中挑选出具有区别度的属性,作为树的第二层节点。依此类推,等到所有的叶节点都只包含某一类样本时停止。构建的树就叫做决策树。决策树从功能上主要区分为两种类型:分类树和回归树。分类树通常用于对离散变量做决策树,而回归树则用于对连续变量做决策树。

3.6 神经元网络技术

神经元网络技术是属于软计算领域里的一种重要方法,它是相关研究人员一直以来坚

持不懈进行的对人脑神经学习机能模拟所研究的明显有效成果,目前已广泛成功地应用于各相关工业部门的数据统计、描述分析利用中,极大地提高了各部门的工作效率。

人工神经网络是模仿生物神经网络的特点,以人工神经元为基本运算单元的一种分布式

4

山西省中医药研究院

存贮信息的智能信息处理系统。通常人工神经网络的应用分为网络构建、规则提取等几个阶段。在构建网络阶段,神经网络通过调整权重来达到能正确预测输入的样本数据的类别归属,网络修剪则是通过设定权值向量对神经网络进行简化,而规则提取是针对设定的属性通过一定的算法从结果集中提取符合要求、易于理解的规则。

3.7 粗糙集理论

粗糙集理论是一种数学工具,用来刻画不确定性和不完整性的,能有效地分析不精确、

不完整、不一致等各种不完备的信息,还可以对数据进行推理和分析,继而从中发现隐藏的相关知识,揭示其潜在的规律。粗糙集理论是在分类机制的基础上的建立的.将分类规定为在特定空间上的等价关系,而等价关系却构成了对该空间的划分。

4在中医药领域的应用情况

目前医药信息数据库资源已比较丰富,数据挖掘技术以逐渐成为医药信息管理现代化

重要组成的部分,各种算法更是在中医药领域中都有着重大的应用。

4.1 关联分析法

其最常用的算法为Apfiofi算法。例如,姚美村等

[8]

以相关的文献中已经收录的106例治

疗消渴病(糖尿病)的中药复方为研究对象,以关联规则分析为研究工具进行仔细的研究,先在单味药层次上进行了消渴病复方组成药味之间的关联模式研究,成功得挖掘出药物与上中下之间的紧密关联,以及药物彼此之间的有效关联,结果与中医专家对消渴病的治疗方面的主要药物的配伍情况基本一致。

4.2 典型的分类分析

此种分析模型有决策树模型、贝叶斯分类模型、神经网络模型和线性回归模型等。例

如,谭红娜等

[10]

在研究MRI乳腺非肿块样强化病灶对乳腺癌的诊断价值时,发现此类决策树

模型所具有的灵敏度、特异性和准确率等均优于传统数据分析所利用统计学中的logistic线性回归传统模型,此发现有着重要的医学数据分析预测意义,可能用于指导临床治疗。

4.3 聚类方法

其中包括机器学习和神经网络方法等。例如,梁伟雄等

[11]

用H指标聚类对221例中风病

急性期病人症候特点及其相关症状、脉象、舌象的关系进行了精密的统计分析,提出中风急性期症候可分为风火症、气虚症、痰瘀症、阴虚阳亢症4类。对于中医对中风的治疗有指导

5

山西省中医药研究院

性意义。

4.4 时间序列分析

此类分析有一个重要的方法是相似时序法,即按时间顺序查看事件数据库,从中找出

其他一个或多个相似的时序事件。例如,Simonsen L等

[12]

对美国的住院病人出院记录数据库

进行了时间序列分析,结果显示13价肺炎疫苗(PCVl3)的使用与美国儿童全因肺炎住院率的显著下降有关。其他研究者也一定程度的利用了此法,效果均显示良好。

4.5 决策树

其中有不同算法,如ID3、HAID、CART等,这些不同的算法同时会产生不同的决策

树,其差异在于三个维度方面:在每层面上树可以拆分点的最大数量;建树时拆分点选择的准确标准;以及如何防止过度拟合来控制树的过度生长。徐蕾等

[13]

通过决策树C4.5算法筛

选对辩症分型的26个因素并按其重要程度排序,获得了可用于准确分类的决策规则,并且建立了能区分各类症型、具有较高灵敏度和特异度的中医辩症模型,最后其得出了决策树C4.5算法建立的模型效果好,可用于慢性胃炎中医证型的较好鉴别诊断的结论。

4.6 神经网络

此法其优点为具有很强的自鲁棒性、组织性和容错性,但也有其缺点为“黑箱”性,

往往人们对网络的学习和决策过程难以理解,但可以经过好的提取算法和有关领域的专家的指导可得到一定程度上的解决。例如雍小嘉等

[14]

以《中医类方辞典》的方剂为样本数据,量

化组方药物的数据,再同时采取单纯人工神经网络方法和神经网络方法结合在一起的属性距离矩阵的高维数据方法,来通过药物判断方剂的基本相关功效。结果显示结合了中医先验知识的人工神经网络方法有较好的利用前景。

5结论与展望

数据挖掘已经渗透到各行各业,对于人们的生活也逐渐起着越来越重要的作用,尤其

是在医药临床诊断研究方面正发挥着重大的作用,随着,人们不断地进行着这方面的研究探索,我们有理由相信未来的医药和数据挖掘彼此的结合将会更加广泛的造福于人类。

6 参考文献

[1]Han JW.Kamber M .数据挖掘:概念与技术[ M] .范明, 孟小峰,译.北京:机械工业出版

6

山西省中医药研究院

社, 2001 :50 -51

[2] 李雄飞,李军。数据挖掘与知识发现[M].北京:高等教育出版社,2005

[3]张颖,扬钧.刘建平.数据挖掘在中医药研究中的应用[J].辽宁中医药太学报,2008,3:153 [4]陆汝钤.世纪之交的知识工程与知识科学[M] .北京:清华大学出版社, 2001 :101 [5] 陈京民.数据仓库与数据挖掘技术[M]北京:电子工业出版社,2002

[6] 张大愚.基于数据挖掘技术的新药临床试验综合平台的研究[D].成都:电子科技大学,2008.

[7] 武建虎.关联规则及其在肝癌病人资料分析研究中的应用[D].上海:第二军医大学.2005.

[8]姚美村,艾路.袁月梅,等.消渴病复方配伍规律的关联分析.北京中医药大学学报,2002.25(6):48—50.

[9] 徐蕾.决策树技术及其在医学中的应用[D].上海:第二军医大学。2004.

[10] 谭红娜,苏懿,李瑞敏,等.数据挖掘技术判定MRI乳腺非肿块样强化病灶的初步研究[J].中华放射学杂志,2009,43(5):455—459.

[11] 梁伟雄,温泽淮.欧爱华等.中风病急性期中医症候多元分析.广州中医药大学学报,1998,15(4):293.

[12] 胡吉明,鲜学丰.挖掘关联规则算法中的研究与改进[J].计算机技术与发展,2006(4):99—104.

[13]徐蕾,贺佳,孟虹等.基于信息熵的决策树在慢性胃炎中医辨证中的应用.第二军医大学学报,2004.25:1009—1012.

[14]雍小嘉,彭京,宋姚屏.采用高维数据归约南药物判定方剂功效.上海中医药大学学报。2006,20(1):54—56.

7

山西省中医药研究院

个人照片 姓名(第一作者) 季海霞 (1寸电子版) 工作单位 E-mail 联系地址 区和平南路336号 山西省中医药研究院 2533360723@qq.com 山西省太原市万柏林传真 联系电话 手机号码 0351--6071311 15735649175 0351--4669155 本人本科期间专业为安徽医科大学药学院的中药学,在读期间学习和掌握了生理、药理、有机化学、分析化学、中药学、中药化学、中药鉴定学等基础学科,英语水平已经通过国家英语四、六级;计算机通过了安徽省省二级;在校期间的获奖的情况为:获得安徽医科大学三等奖优秀奖学金、校园PPT设计大赛优秀奖、校优秀文个人简历 明寝室评比中获荣誉证书。社会实践经历有:参加过大学生创业培(200字左右) 训(SYB)学习并获得合格证书、参加安徽医科大学中药专业黄山野外实习,参加了安徽医科大学中药专业亳州中药材市场实习,而且本科实习在安徽省医学研究所,为期半年。之后,参加了2015年硕士生考试,并考取了山西省中医药研究所的方剂学专业,现在属于在读期间,努力学习相关的专业知识,为将来自己的就业打好基础。

8

本文来源:https://www.bwwdw.com/article/jtyp.html

Top