一种改进DBSCAN密度聚类算法-最新文档
更新时间:2024-03-07 10:18:01 阅读量: 综合文库 文档下载
一种改进DBSCAN密度聚类算法
1 引言
基于密度的DBSCAN聚类算法可以在含有噪声的空间数据库中发掘随意不同形状的簇,但前提条件是要用户给定密度阈值,将空间对象中含有高密度的区域划分为簇[1]。密度阈值有两个参数构成,其中为半径参数,MinPts为以为半径的领域内至少包含对象的最小数量。这两个参数需要事先根据经验人为确定,所以就导致算法对参数敏感,最终的聚类结果也会因为参数的细微变化产生较大的差异。为了克服DBSCAN算法所存在的上述缺点,海内外许多研究学者已经相继提出了一些改良方法。其中OPTICS算法就是通过生成有序队列表优化Eps参数值;AGD-DBSCAN算法就是利用数据集特点来确定Eps、MinPts这两个参数等[2]。
DBSACAN聚类算法需要逐个寻找中心节点并且根据迭代明确全部密度可达对象,这就造成该算法的时间复杂度是。若算法采取空间索引,该算法的时间复杂度是,其中是数据库中对象的数量。DBSCAN算法的时间复杂度与数据集接近线性关系,可知它可以有效地处理大规模数据集,该算法能够有效的处理数值型数据,但在大规模数据集上不能处理混合型数据。为了克服上述这一缺点,本文提出了一种两阶段的聚类整合算法(TDBSCAN)。该算法第一阶段,采用一趟聚类算法初步划分原始数据集,将非
常靠近的对象当作同个整体对待,对原始数据集实行紧缩表示;第二阶段,使用现有的DBSCAN聚类算法合并初步划分获得最后的聚类结果。最后通过实例验证该算法可以很好地解决含有混合属性的大规模数据集的聚类问题。 2 基于DBSCAN聚类算法的改进 2.1 相关定义
定义1簇与间的距离定义为,这里每条记录有个属性,此中有个分类属性和个数值属性,为与在属性上的不同。分类属性其值是定义与中对象在属性上的距离均值:
这里,是中两个对象。对于数值属性,。和分别为和对应属性的质心。
原始DBSCAN聚类算法可以处理数值属性数据,但无法处理含分类属性数据,定义1[3]可运算分类属性数据之间的距离,采用定义1代替欧式距离对原始DBSCAN进行拓广,使之能处理分类属性数据。
2.2 DBSCAN聚类算法的改进设计 TDBSCAN算法的聚类过程如下: Stage1.初始聚类的划分
1)开始时,采用一趟聚类算法将数据集D分割成同样大小的k个簇,簇集合为空,各个簇输入一个新的对象。 2)以这个对象去构建一个新的簇。
3)如已到数据集的尾端,则转到(5),不然输入新对象采
用上述的距离定义运算它与各个已有簇间中心对象的距离,然后选取最短距离。
4)若最短距离大于给出的阈值r转(2),不然将该对象读入最短距离的簇中并跟新簇的质心,转(3),其中阈值r的取值在之间,和为过程2)中每个对象之间距离的平均值和方差。 5)结束。
Stage2.DBSCAN聚类过程
6)将上一阶段获得的每个簇看作一个对象,然后采用现有的DBSCAN聚类算法进行聚类归并。 3 实验分析 3.1 实验环境
实验所用到的计算机的配置为windows10旗舰版操作系统,Intel i3 双核处理器,4GHz主频和4GB内存,实验数据采用Mushroom数据集和KDDCUP99数据集,算法是用Java语言在Eclipse软件上进行编写所实现。 3.2 实验结果分析与比较
K-prototypes算法[4]涵盖了K众数划分聚类和K均值划分聚类这两个算法的不同特点,可以有效地处理混合属性数据。将TDBSCAN算法与K-prototypes算法在Mushroom数据集和KDDCUP99数据集上就聚类精度[5]进行比较。Mushroom数据集约含有8000多条记录,每条记录都有22个分类属性来描述的。KDDCUP99数据集约含有四百九十多万条模拟记录,每条记录由
34个数值型属性和7个分类属性所描述,选用一个大概5%的数据子集来检测算法,该子集包括正常记录和攻击记录。在选定的数据集上重复运行5次,每次都要随机改变记录的顺序,实验结果如表1所示。
测验结果表明TDBSCAN算法在上述2个选定的数据集上的平均聚类精度分别高于K-prototypes算法大约4%和5%,聚类的稳定性也比较好。 4 结语
针对DBSCAN聚类算法在大规模数据集上存在无法处理混合属性数据的难题,本文提出了一种两阶段的聚类整合算法。通过实例验证该算法可以很好地处理含有混合属性的大规模数据集的聚类问题,并且较其他算法在平均聚类精度和聚类的稳定性上有所提高。
正在阅读:
买方便面作文350字07-01
The Success of Advanced Learning Technologies for Instruction Research and Evaluation of Hu03-20
酸甜苦辣话校园作文700字06-30
《审计学》复习提纲(三)综合题11-15
幼儿教师面试笔试题04-25
2022年南京航空航天大学能源与动力学院917工程热力学04-18
华南理工大学自动化专业教学计划及课程教学大纲汇编(2005级-2007级)(200709印刷版)02-01
最新青岛版六年级数学上册第八单元总复习教案 教学设计 - 图文01-16
油浸式变压器出厂试验报告09-01
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 算法
- 密度
- 改进
- 文档
- DBSCAN
- 最新
- 《遂宁日报》改版方案
- 6.4 用一次函数解决问题(1)
- 团总支学生会科技部年终工作总结
- 新生儿窒息复苏第二套题
- 新品种保护申请资料 - -代理委托书
- 电子电工学试题库
- 2014-2015学年度六年级数学下册教学计划
- 我国引线框架的生产情况
- 七年级数学上册期末试卷分析
- 近水楼台先得‘月’业户联谊策划定稿
- 人教版政治必修四第四课探究世界的本原导学案
- Oracle 10g 数据库管理应用与开发 课后习题答案(填空与选择题)
- 县长在全县教育工作暨第27个教师节表彰大会上的讲话
- 初中化学实验总复习
- 2012国际货物代理模拟试卷及答案
- 三星i9192 root教程实现三星9192完美root - 完美ROOT
- 关于业务招待费所得税前扣除标准汇总
- 五小民族团结创建五年规划
- 工程力学复习题1及答案
- 建立规章制度的意义