改进K—Means算法的探讨与分析

更新时间:2024-03-24 22:19:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

龙源期刊网 http://www.qikan.com.cn

改进K—Means算法的探讨与分析

作者:曹卫华 乔平安

来源:《电脑知识与技术》2017年第06期

摘要:随着人类社会的不断进步和发展,K-Means作为聚类中较常用的算法,得到广泛的应用。该文探讨了K-Means和Canopy算法的执行过程,针对K-Means及Canopy的优缺点,提出了改进的K-Means算法。算法中将Canopy作为K-Means的预处理,通过Canopy得到聚类中簇的个数、初始化的聚类中心,同时排除掉“噪声”以及孤立点带来的影响,将Canopy的结果用于K-Means,进一步增强聚类性能,减少计算量。另外,针对K-Means中使用的距离度量公式,提出了改进的余弦距离度量公式,使得簇内数据点间的距离减小,簇间数据点间的距离增大,提高聚类质量。

关键词:聚类;K-Means;Canopy;余弦;距离度量公式;改进

中图分类号:TP319 文献标识码:A 文章编号:1009-3044(2017)06-0200-02 1 概述

聚类分析作为一项重要的人类社会活动,广泛应用于市场研究、模式识别、数据分析和图像处理等诸多领域。在童年时期,我们通过不断改进潜意识聚类方案学习如何区分猫和狗,或动物和植物。通过自动化聚类,可以识别对象空间中的密集和稀疏区域,从而发现数据属性中的总体分布模式和有趣的相关性。在商业活动中,聚类分析可以帮助营销人员在其客户群中发现不同的群体,并基于购买模式来表征客户群。在生物学中,聚类分析可以将植物和动物区分开,将具有相似功能的基因进行分类,并获得对人群内在结构的了解。在未来的工作和生活中,聚类将继续发挥越来越举足轻重的作用,带给我们前所未有的帮助。 2 聚类算法介绍

聚类技术中存在着许多算法,但是难以提供一种清晰的方法分类各种聚类算法,因为这些分类都可能重叠,使得一个聚类方法属于许多类别中。然而,呈现不同聚类方法的相对分类组织却是有用的。一般来说,主要的聚类方法可以分类为分区方法、分层方法、基于密度的方法、基于网格的方法、基于模型的方法等,很多聚类算法的共同点是需要选择度量距离的方法,可以根据向量空间和建模数据的性质采用多种方法测量向量之间的距离。K-Means则是分区方法中较为常见的一种算法,其流程如图1所示。 K-Means算法的主要不足体现在:

1)该算法必须事先确定簇的个数k,即要求用户事先知道数据集中数据的一些特点。但很多时候用户对数据集是不了解的,并不知道数据集应该聚类成多少个簇才最合适。聚类结果对初始聚类个数比较敏感,对于不同的初始值,可能会导致不同的聚类结果。

本文来源:https://www.bwwdw.com/article/d568.html

Top