一种新的复杂网络聚类算法

更新时间:2023-05-13 18:36:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第27卷第6期2010年6月 

计算机应用研究

ApplicationResearchofComputers

Vol.27No.6Jun.2010

一种新的复杂网络聚类算法

李峻金,向 阳,牛 鹏,刘丽明,芦英明

100072)

摘 要:揭示网络簇结构的复杂网络聚类方法研究具有重要的理论意义和应用价值。应用两种谱方法将复杂网络簇结构发现问题转换为空间数据聚类问题,并将粒子群聚类算法应用到对复杂网络簇结构的探测,提出了两种新的结合粒子群聚类的复杂网络簇结构探测算法。最后在两类复杂网络上进行实验并对实验结果进行了比较分析,提出的新算法在聚类准确性方面效果更好。

关键词:复杂网络;网络聚类;网络簇结构;谱方法;粒子群聚类算法

中图分类号:TP301畅6   文献标志码:A   文章编号:1001唱3695(2010)06唱2097唱03doi:10.3969/j.issn.1001唱3695.2010.06.029

(1.西安通信学院,西安710106;2.中国人民解放军72556部队,济南250022;3.中国特种车辆研究所,北京

(1.Xi’anCommunicationsInstitute,Xi’an710106,China;2.PLA72556Unit,Jinan250022,China;3.China’sSpecialVehicleResearchInstitute,Beijing100072,China)

LIJun唱jin,XIANGYang,NIUPeng,LIULi唱ming,LUYing唱ming

Newcomplexnetworkclusteringalgorithm

Abstract:Networkclusteringalgorithmswhichaimtodiscoverallnaturalnetworkcommunitiesfromgivencomplexnetworksarefundamentallyimportantforboththeoreticalresearchesandpracticalapplications.Thispaperusedtwospectralpartitionmethodsinordertotransformthecommunitiesdetectingintoclusteranalysisproblem.Then,appliedPSOclusteringalgorithmstodetectclusterstructure.ProposedtwonewnetworkclusteringalgorithmscloselycombinedwithPSOanddemonstratedtheavailabilityofthealgorithmintwodifferentkindsofnetworkdatum.Italsomakesthecomparisonandanalysisoftheexperi唱mentalresultsandobtainsaconclusionthattheproposedalgorithmspresentfitnessinclusteringveracity.

Keywords:complexnetwork;networkclustering;networkclusterstructure;spectralpartition;PSOclustering

0 引言

现实世界中的诸多系统都以网络形式存在,并表现出很高的复杂性。网络簇结构(networkclusterstructure)是复杂网络最普遍和最重要的拓扑结构属性之一,具有同簇节点相互连接

[1~5]

密集、异簇节点相互连接稀疏的特点。为了揭示出复杂网络中真实存在的网络簇结构,人们提出了多种复杂网络聚类方法。复杂网络聚类方法的研究对分析复杂网络的拓扑结构、理解复杂网络的功能、发现复杂网络中的隐藏规律以及预测复杂网络的行为不仅具有十分重要的理论意义,而且在社会网、生物网和万维网中具有广泛的应用前景。由于复杂网络聚类研究具有重要的理论意义和应用价值,它不仅成为计算机领域中最具挑战性的基础性研究课题之一,也吸引了来自物理、数学、生物、社会学和复杂性科学等众多领域的研究者,掀起了一股

[6]

研究热潮。

谱方法最早用于解决图分割(graphpartition)问题,近年来被应用到复杂网络聚类。谱方法采用二次型优化技术最小化预定义的“截”函数。当一个网络被划分为两个子网络时,“截”即指子网间的连接密度。具有最小“截”的划分被认为是最优的网络划分。针对不同问题,研究者们提出了不同的

收稿日期:2009唱11唱10;修回日期:2009唱12唱29  

“截”函数,如针对分布式系统负载平衡提出的平均截(averagecut,A唱cut)cut,N唱cut)

[7,8][9]

以及针对图像分割提出的规范截(normalized

等。采用矩阵分析技术,谱方法将求解最小“截”

问题转换为求解带约束的二次型优化问题:min{(XMX)/(XX)}。其中,向量X表示网络划分,M表示对称半正定矩阵。对于平均截,M=D-A表示网络的拉普拉斯矩阵,其中D表示由节点度构成的对角矩阵,A为网络的邻接矩阵;对于规范截,M=D

-1/2

(D-A)D

-1/2

表示网络的规范化拉普拉斯矩

阵;对于其他截函数,M是拉普拉斯矩阵的不同变体。由拉格朗日方法,以上约束二次型的近似最优解(即网络的近似最优划分)可以通过计算M的第二小特征向量求得。谱方法本质上是一种二分法,在每次二分过程中,网络被分割成两个近似平衡的子网络。当网络中含有多个簇时,谱方法递归地分割现存的子网络,直到满足预先定义的停止条件为止。谱方法具有严密的数学理论,已发展成数据聚类的一种重要方法(称为谱聚类法),被广泛应用于图分割和空间点聚类等领域。

本文研究了复杂网络聚类算法中谱方法的基本原理,其主要工作是将粒子群优化算法应用于复杂网络聚类,通过PSO聚类算法和谱方法中的平均截方法

[7,8]

与规范截方法

[9]

相结

合,提出了两种新的复杂网络聚类算法,即基于PSO聚类的谱

作者简介:李峻金(1985唱),男,安徽阜阳人,硕士研究生,主要研究方向为人工智能与聚类分析(tspace1985@gmail.com);向阳(1968唱),女,湖南长沙人,副教授,硕士,主要研究方向为计算机与数据库安全;牛鹏(1985唱),男,河南安阳人,硕士研究生,主要研究方向为模式识别与图像处理;刘丽明(1983唱),女,河北邢台人,助理工程师,硕士,主要研究方向为网络安全;芦英明(1985唱),男,陕西西安人,助理工程师,主要研究方向为装备系统工程.

2098 计算机应用研究 第27卷

方法和基于PSO+K唱means聚类的谱方法,并在人工随机网络和两个现实社会网络上实验验证了新方法的有效性。

1 算法描述

1畅1 基于社会生态学的粒子群优化算法PSO聚类算法zation,PSO)

(particleswarmoptimi唱

[10]

主要是在群体的集群行为和自组织原则指导下

的随机搜索和优化技术,它强调分布式、相对简单主体之间直接或间接的交互作用,具有很强的适应性和鲁棒性,被广泛用于解决搜索和优化问题PSO提出了标准

般形式下聚类算法PSO,算法与用于对一般数据集的聚类。2003年,Merwe等人

[11]

K唱means算法相结合的混合聚类方法,同时最早提出了一。

假设在D维搜索空间中有n个粒子组成的一个群体,第i个粒子在D维空间中的位置表示为xi=

(xi1,xi2,…,xiD)。第i个粒子经历过的最好位置(有最好适应度)记为Pi=(pi1,pi2,…,piD),每个粒子的飞行速度为Vi=(vi1,vi2,…,viD);在整个群体中,所有粒子经历过的最好位置为Pg=(pg1,pg2,…,pgD)。每一代粒子根据下面的公式更新自己的速度和位置:

vkid

+1

=wvkid+c1ξ(pkid

-xkid)+c2η(pkgd-xkid)

(1)xkid

+1

=xkid+vkid

+1

(2)

其中:w为惯性权重;c1和c2为学习因子;ξ,η∈U[0,1]是在[0,1]PSO内均匀分布的伪随机数聚类算法中粒子的适应度函数为。

Je:

J∑Nj=c1[∑橙zp∈Cjd(zp,mj)]/

|Cj|e=

Nc

(3)mj=

1nj

橙z∑p∈Cjzp

(4)

d(zp,mj)=

∑b

k=1

(zpk-mjk)2

(5)

其中:Nb为数据的维数;Nc为聚簇的个数;zp表示样本的数据向量;nj表示簇Cj中样本的个数;mj表示簇Cj中样本的均值(中心)。

基本a)初始化粒子群PSO聚类算法的流程如下,随机选择簇的中心并赋值给各个粒子:随机产生粒子的速度,repeat

(3)计算各个粒子的适应值b)对每个粒子按照最小距离原则对数据进行划分,更新个体极值。

,按式cd)根据各个粒子的个体极值找出全局极值和全局极值位置。

e)按速度(式(1))更新粒子的速度,并把它限制在vmax内。until)按位置(式(2))更新粒子的位置f)输出最优粒子的位置即最优的满足终止条件

。Nc个聚类中心。算法的终止条件可以是达到一定的循环次数,簇的中心变化很小或簇的成员不再改变用K唱PSOmeans与方法得到一组簇的中心K唱means算法相结合的混合算法的基本思路是先

,然后在粒子群初始化时将其赋值给某个粒子,其余粒子随机初始化,最后用标准PSO聚类算法完成聚类。该方法可简记为PSO+K唱means方法。1畅2 复杂网络聚类与空间数据聚类有很多相似之处基于PSO的复杂网络聚类算法

。目前应

用空间数据聚类来探测复杂网络的簇结构主要分为两大步骤a)将原问题转换为数值聚类问题,即要把网络中节点间的联

:系在特征向量空间中表述出来,谱方法正好可以实现这一转换;b)对转换后的数据进行聚类并将聚类结果还原为相应的社团结构。根据上述思路本文提出了两种基于PSO聚类的复杂网络簇结构算法。其算法的基本思想是首先应用谱方法中的A唱cut方法或N唱cut方法将复杂网络聚类问题转换为空间数据聚类问题;通过应用A唱cut方法或N唱cut方法将复杂网络中的簇结构信息转换为由非平凡特征向量构成的空间数据集。该空间数据集中的每个数据样本对应原复杂网络中的一个节点。通过对该空间数据集中数据样本的聚类得出复杂网络中节点的簇信息,最终完成复杂网络聚类。

PSO聚类的复杂网络簇结构探测算法的基本步骤如下对于某复杂网络G(V,E,W),给定一个簇的数目:

k,基于中Da为对角矩阵)由连接权矩阵,dW得出网络的度矩阵D=(di)n×n。其

i为第i个节点的度,n为节点数。注意,这里考虑的均为无向网络聚类问题b)用谱方法将寻找复杂网络的簇结构问题转换为数据的

。设A为网络的邻接矩阵。对于平均截方法,具体就是计算M=D-A的前k-1个非平凡特征向量e1,e1,…,

ek-1(ei∈R

n×1

,i=1,…,k-1)并组成矩阵E。对于规范截方

法,具体就是计算M=D-1/2

(D-A)D

-1/2

的前k-1个非平凡

特征向量ek-1(ei∈R

n×1

1,e1,…,e,i=1,…,k-1)并组成矩

阵E。由E的行向量得到n个数据向量形式的待聚类样本。K唱meansc)用基于聚类算法对上面得到的数据样本集PSO的聚类算法,如基本PSOE聚类算法或进行聚类。

PSO+

2 实验与分析

为了定量地分析和比较本文提出的复杂网络聚类算法的性能,分别选取了不同的基准数据集与基于K唱means聚类的复杂网络聚类算法,从聚类精度和算法稳定性两个方面进行对比实验。

首先采用已知簇结构的随机网络测试所选择算法的聚类精度和稳定性。该实验方法被相关工作广泛采用,已成为测试复杂网络聚类算法准确性的一种基准方法

[1,12,13]

。已知簇结

构的随机网络定义为RN(C,s,d,pin)。其中,C表示网络簇的个数;s表示每个簇包含节点的个数;d表示网络中节点的平均度;pin表示簇内连接密度(即簇内连接总数与网络连接总数的比值),pin值越大,随机网络的簇结构越明显,反之簇结构越模糊。特别地,当pin<0.5时,认为该随机网络不具有簇结构。一个随机网络被正确聚类当且仅当预定义的C个网络簇被全部正确识别,且没有某个簇被进一步分割为多个子簇。图1和2给出了实验结果,这里所采用的随机网络是被普遍采用的基准随机网络RN(4,32,16,pin),pin分别取0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0。在图1和2中,y轴分别表示聚类精度和聚类精度的标准差,曲线上的每个数据点是采用不同算法进行100次随机实验得到的平均值。

从图1可以看出,对于随机网路,在网络簇结构比较明显的情况下N(pin>0.6),基于PSO聚类的谱方法(A唱构不明显的情况下唱cut方法)均能得到很好的聚类精度(pin<0.5),所有算法的聚类精度都很低(>98%);在网络簇结cut方法和,

但是与基于K唱means的谱方法相比,基于PSO聚类的谱方法的聚类精度更高。从图2可以看出,基于PSO+K唱means聚类的谱方法在获得最高的聚类精度的同时聚类精度的标准差最低,说明基于PSO+K唱means聚类的谱方法稳定性最强。

第6期李峻金,等:一种新的复杂网络聚类算法 20   99

Karate为进一步测试本文算法的性能club它是网络

,选取两个基准社会网络

[14]

club网络,20世纪和Football70年代初期网络

[1]

Zachary进行实验用了两年的时间。图3是Karate

观察得到的美国一所大学中的空手道俱乐部成员间的相互社会关系网络。在Zachary的调查过程中,该俱乐部的主管与校

长之间因是否提高俱乐部收费的问题产生了争执,结果该俱乐部分裂成了两个分别以主管和校长为核心的小俱乐部。

网络。Football

足球联赛中有若干支球队

,网络的节点代表一只足球队,两个节点之间的边表示两支球队之间进行过一场比赛。联赛中存在若干的联盟,每个球队都属于其中一个联盟,联盟内部球队

间进行的比赛次数多于联盟之间的球队间进行的比赛次数。该网络数据收集于Newman2000年赛季的真实比赛情况,(边),包含了收集整理而成12个联盟,。存在Football115支球队网络如图(节点4所示)及由。

616Girvan场比赛与

实验结果如表1所示。从表1可以看出,对于Karateclub网络和cutFootball网络,基于PSO聚类的谱方法(A唱cut差。方法方法和N唱

其中基于基本)同样获得了较高的聚类精度和较低的聚类精度标准PSO聚类的谱方法在Karateclub网络上的聚类精度最高FootballPSO+K唱网络上聚类精度最高(>98%),基于means聚类的谱方法得到的聚类精度的标准差均最低(PSO>92%)。+K唱means在三种方法中聚类的谱方法在,基于。

3 结束语

复杂网络聚类是最重要的复杂网络分析方法之一,复杂网络簇结构探测已成为一个具有挑战性的研究课题。尽管人们已经投入了大量的、艰苦的研究工作并取得诸多令人鼓舞的研

究结果,但复杂网络聚类问题还远未被很好地解决。本文首先介绍了复杂网络聚类中的两种谱方法(A唱cut方法和N唱cut方法)和两种空间聚类方法(PSO聚类算法和PSO+K唱means聚类算法);然后提出和分析了两种基于PSO聚类的复杂网络簇means结构探测算法聚类的谱方法,即基于;最后在PSO聚类的谱方法和基于10个随机复杂网络和两个基准PSO+K唱

社会网络上进行实验,验证了两种算法在复杂网络聚类分析中的有效性。从实验结果可知,通过将PSO聚类算法与谱方法相结合,有效提高了谱方法在复杂网络聚类中的聚类精度和稳定性。

表1 不同算法在基准社会网络上100次随机实验结果

(聚类精度±标准差)

算法

唱means86.A1176唱Karatecut

club网络

±

93.N6471唱cut

±

81.A2000唱cut

Football网络

K±

82.N4174唱cut

±

8.00177.78966.00677.0682PSO98.9118±98.5882±81.5217±81.9217±3.13082.40673.97804.1726PSO+K唱means

97.0588±97.0588±92.5130±92.6870±0.0000

0.0000

1.3798

0.8790

参考文献:

[1]GIRVANM,NEWMANMEJ.Communitystructureinsocialand

biologicalScienceofnetworksUSA,2002,[J].Proceedings99(12):7821唱of7826.

theNationalAcademyof[2]GUIMERAR,AMARALLAN.Functionalcartographyofcomplex[3]PALLAmetabolicG,networksDERENYI[J].I,NatureFARKAS,2005,I,433etal(7028).Uncovering:895唱900.

theoverlap唱

ping[J].communityNature,2005,structures435(7043)ofcomplex:814唱818.

networksinnatureandsociety[4]WILKINSONDM,HUBERMANBA.Amethodforfindingcommu唱

nitiesofScienceofrelatedofUSAgenes,2004,[J].Proceedings101(1):5241唱of5248.

theNationalAcademy[5]RADICCHIF,CASTELLANOC,CECCONIF,etal.Definingand

tionalidentifyingAcademycommunitiesofScienceinnetworksofUSA[,2004,J].Proceedings101(9):2658唱ofthe2663.Na唱

[6]杨博,刘大有,LIUJi唱ming,等.复杂网络聚类方法[J].软件学报,

2009,20(1):54唱66.

[7]FIEDLERM.Algebraicconnectivityofgraphs[J].Czechoslovakian

MathematicalJournal,1973,23(2):298唱305.[8]

FIEDLERM.ApropertyofeigenvectorsofnonnegativesymmetricMathematicalmatricesanditsJournalapplication,1975,to25graph(4):619唱theory637.

[J].Czechoslovakian[9]SHIJian唱bo,MALIKJ.Normalizedcutsandimagesegmentation[J].

IEEETransonPatternAnalysisandMachineIntelligent,2000,22(8):888唱904.

[10]KENNEDYJ,EBERHARTR.Particleswarmoptimization[C]//

1942唱Procof1948.

IEEEInternationalConferenceonNeuralNetworks.1995:

[11]VanderMERWEDW,ENGELBRECHTAP.Dataclusteringusing

tionaryparticleComputationswarmoptimization.2003:215唱[C]220.

//ProcofIEEECongressonEvolu唱

[12]NEWMANMEJ.Fastalgorithmfordetectingcommunitystructurein[13]NEWMANnetworks[J]M.PhysicalEJ,GIRVANReviewM.E,2004,Finding69and(6)evaluating:066133唱1唱community

11.

026113唱structure1唱in15.

networks[J].PhysicalReviewE,2004,69(2):[14]ZACHARYWW.Aninformationflowmodelforconflictandfission

33in(4)small:452唱groups473.

[J].JournalofAnthropologicalResearch,1977,

本文来源:https://www.bwwdw.com/article/eage.html

Top