基于交叉销售模型的客户聚类研究

更新时间：2023-08-24 10:05:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

交叉销售模型推荐度：
相关推荐

资料

１０８

福建电脑２００８年第４期

基于交叉销售模型的客户聚类研究

孙庆波１，孟

伟２，孙

宇３

（１．山东邹城兖州矿区职工大学计算机系山东济宁２７３５００

２．徐州市连心公用卡有限公司江苏徐州２２１０００３．徐州电子技术研究所江苏徐州２２１０００）

摘要】【：这篇文章在对关联分析的交叉销售模型进行分析的基础上，设计了一种基于客户聚类的交叉销售解决方案，即在构建的Ｃｕｓｔｏｍｅｒ－Ｉｔｅｍ矩阵的前提下对客户进行聚类，并计算用户交叉销售兴趣度，进而加深对于客户事务数据的分析，利于制定更加具有针对性的交叉销售策略。

关键词】【：数据挖掘；聚类；相异度；客户关系管理；交叉销售

０．引言

随着经济的全球化，企业面临着全球越来越激烈的市场竞

争。许多企业都开始尝试以业务流程为改造对象、以关心客户需求和提高客户满意度为目标、对现有的业务流程进行根本地再思考和彻底地再设计，利用先进的信息技术以及现代化的管理思想和方法、最大限度地实现技术上的功能集成和管理上的职能集成，建立全新的过程型组织结构，以实现企业经营在成本、质量、服务和速度等方面的巨大改善。而数据挖掘技术的发展和不断成熟为客户关系管理（ＣｕｓｔｏｍｅｒＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ，简称ＣＲＭ）提供了新的发展空间。数据挖掘能够帮助企业确定客户的特点，确定了客户的特点，就能够为客户提供有针对性的服务。从而起到发掘潜在的客户群、提高市场活动的响应率、提高现有客户价值以及发现重要客户等作用。

目前针对交叉销售模型的解决方案是将客户购买事务记录进行关联分析，发现商品频繁项集，并生成关联规则，从而实现交叉销售策略支持。传统的关联规则分析只考虑到商品的频繁项集和由此生成的关联规则，并不考虑各种商品被购买的数量所能反映出的客观规律，本文设计了一种基于客户聚类的解决方案，通过分析客户购买事务记录，根据客户的购买模式将客户聚类，然后计算出各个客户聚类对于每种商品的兴趣度的大小，从而为交叉销售策略提供更加具有针对性的技术支持。并且当一个新客户出现时，计算他与各个客户聚类的距离，从而识别出他应该属于某个客户聚类，以便实施交叉销售。１．构建Ｃｕｓｔｏｍｅｒ－Ｉｔｅｍ矩阵

设共有ｎ种商品构成集合：Ｉｔｅｍ＝｛Ｉｔｅｍ１，Ｉｔｅｍ２…Ｉｔｅｍｎ｝；设有ｍ个客户，则构成客户集：Ｃｕｓｔｏｍｅｒ＝｛Ｃｕｓｔｏｍｅｒ１，Ｃｕｓ－ｔｏｍｅｒ２，…Ｃｕｓｔｏｍｅｒｍ｝。

客户购买事务记录被映射成为多维的商品购买向量，所以客户购买集合Ｔ可以用一个ｎ×ｍ的矩阵表示，其中每行表示客户购买的商品集合，每列表示购买该商品的客户集合，每个矩阵元素项ｔｉｊ表示客户对于商品的购买数量，当ｔｉｊ＝０时，表示客户没有购买商品。

设有如表１所示的客户购买事务记录：

２．客户相异度的计算

聚类是把整个数据对象的集合分成由类似的对象组合成的多个不同的群组，使得群组之间的数据差别尽量明显，而属于同一个群组内部的数据则尽量相似。显然，聚类与分类有一定的相似之处，但是与分类最大的不同是：在开始聚类之前并不知道要把数据分为几类，或者是不知道用什么样的属性变量进行划分；而在开始分类之前则已经非常明确了具体的分类类别，关键在于如何把一个数据样本划分到哪一类。

聚类增强了人们对客观现实的认识，是进行概念描述和偏差分析的先决条件，在ＣＲＭ中可以帮助市场分析人员将客户细分，化为多个客户群，并依据不同的客户群进行交叉销售。

在获得了客户的购买信息后，要分析客户之间的相异度，根据相异度对客户进行聚类。客户之间的相异度计算是客户聚类

曼哈坦的核心之一，相异度的度量方法典型的有欧几里德距离、

距离、明考斯基距离等。本文采用欧几里德（Ｅｕｃｌｉｄｅａｎ）距离的计算方法，计算上面Ｃｕｓｔｏｍｅｒ－Ｉｔｅｍ矩阵可得出客户相异度矩阵Ｄ７×７如下：

３．客户聚类

当得出客户相异度矩阵（距离矩阵）后，就可以开始对客户进行聚类了。聚类过程采用如下的一个新设计的算法来完成聚类功能。

基本的聚类思想是：确定一个距离阈值θ，如果ｄｉｊ小于这个距离θ，那么就将第ｉ个客户和第ｊ个客户划分为一类客户，从而得到客户的聚类。

聚类算法的核心代码实现如下：

输入：Ｃｕｓｔｏｍｅｒ＝｛Ｃｕｓｔｏｍｅｒ１，Ｃｕｓｔｏｍｅｒ２，…Ｃｕｓｔｏｍｅｒｍ｝，

Ｄｍ×ｍ

Ｂｅｇｉｎ

ＦｏｒＩ＝１ｔｏｍｄｏＢｅｇｉｎ

ａ［ｉ］＝Ｎｕｌｌ；／＊初始化＊／ａ［ｉ］＝Ｃｕｓｔｏｍｅｒ［ｉ］；Ｆｏｒｊ＝１ｔｏｍｄｏＢｅｇｉｎ

ＩｆＤ［ｉ］［ｊ］＜θｔｈｅｎ

值，将其归为一ａ［ｉ］＝ａ［ｉ］＋Ｃｕｓｔｏｍｅｒ［ｊ］／＊如果两个客户之间的距离小于θ

表１客户购买事务记录

因而得到如下的Ｃｕｓｔｏｍｅｒ－Ｉｔｅｍ矩阵Ｍ７×６：

类＊／ ÁÂÁÃÄÅ

Ｅｎｄ；ÅÆÁÆÇÃ

Ｅｎｄ； ÈÂÉÆÃÇ

ＦｏｒＩ＝１ｔｏｍｄｏÈÅÇÂÁ ＢｅｇｉｎÈÁÂÂÅ

ÂÄÈÅÉÈＩｆａ［ｉ］＜＞Ｎｕｌｌｔｈｅｎ

ÂÃÃÆÆÂＢｅｇｉｎ

／＊形成聚类结果＊／

资料

２００８年第４期福建电脑

１０９

Ｆｏｒｊ＝Ｉ＋１ｔｏｍｄｏ／＊向下寻找并删除相同集合＊／Ｂｅｇｉｎ

Ｉｆａ［ｉ］＝ａ［ｊ］ｔｈｅｎａ［ｊ］＝Ｎｕｌｌ；Ｅｎｄ；

ＣｕｓｔｏｍｅｒＪ＝ＣｕｓｔｏｍｅｒＪ＋ａ［ｉ］ＥｎｄＥｌｓｅ

Ｃｏｎｔｉｎｕｅ；

Ｅｎｄ；Ｅｎｄ；

计算兴趣度的核心算法的代码如下：

输入：Ｃｕｓｔｏｍｅｒ－Ｉｔｅｍ矩阵，客户聚类结果Ｃ，ＡＡｖｇＢｕｙＤｅ－ｇｒｅｅ，设共有ｚ个聚类

Ｂｅｇｉｎ

Ｆｏｒｉ＝１ｔｏｚｄｏＦｏｒｊ＝１ｔｏｎｄｏ／＊商品数目＊／Ｂｅｇｉｎ

ＦｏｒｅａｃｈｃｕｓｔｏｍｅｒｋＣｉｄｏ／＊计算同一聚类客户购买商品之和＊／

Ｉｎｔｅｒｅｓｔ（Ｃｉ，Ｉｔｅｍｊ）＝Ｉｎｔｅｒｅｓｔ（Ｃｉ，Ｉｔｅｍｊ）＋Ｍ［ｋ］［ｊ］Ｉｎｔｅｒｅｓｔ（Ｃｉ，Ｉｔｅｍｊ）＝Ｉｎｔｅｒｅｓｔ（Ｃｉ，Ｉｔｅｍｊ）＝ＥｎｄＥｎｄ

输出：客户聚类的集合ＣｕｓｔｏｍｅｒＪ

以上面的客户距离矩阵为例，用上述算法，假设θ＝５，最后可以得到用户聚类的结果为：

ＣｕｓｔｏｍｅｒＪ＝｛（Ｃｕｓｔｏｍｅｒｌ，Ｃｕｓｔｏｍｅｒ５，Ｃｕｓｔｏｍｅｒ７），（Ｃｕｓｔｏｍｅｒ２，Ｃｕｓｔｏｍｅｒ６），（Ｃｕｓｔｏｍｅｒ３，Ｃｕｓｔｏｍｅｒ４）｝。

选择不当的话可能会出现相交的情况，需当然这里如果θ

要重新选择阈值，阈值的选择需要经过多次的模拟试验，从而选择尝试确定最合适的阈值θ。这个算法对应于通常所使用的Ｋ均值算法或者Ｋ中心算法以及层次聚类算法的优点是不需要设定初始的Ｋ值，Ｋ值的取得往往具有很大的盲目性，而通过设定距离阈值θ，可以使得数据挖掘过程更多地得到领域专家的参与，领域专家可以根据通常的商业领域知识，判定距离小于阈值θ就可以划归为一类客户，即差异度小于一定的数值的客户可以被认为是属于一类的。４．交叉销售兴趣度的计算

交叉销售需要获知客户对商品的评价来确定客户的兴趣，这种客户兴趣度的评价可以通过数据挖掘来自动获得。有两个指标可以用来衡量客户的购买兴趣度，一个是客户购买某种商品的频率。另一个是客户购买某个商品的数量（单位是：个），如果客户大量购买某种商品，就说明他对该商品感兴趣，数量越大说明购买的兴趣度越高，购买频率可能会因为客户的生活习惯改变而不同，所以本文采用第二个指标来衡量客户对商品的兴趣度。

交叉销售要求首先要确定对于每个客户聚类具有较高兴趣度的商品集合，某种商品Ｉｔｅｍｊ在某个客户聚类Ｃｉ中的兴趣度可以用以下公式计算：

输出：ＣｕｓｔｏｍｅｒＪ－Ｉｔｅｍ矩阵

ＣｕｓｔｏｍｅｒＪ－Ｉｔｅｍ矩阵，也就是各个商品相对于各个聚类的兴趣度；对于上文给出的Ｃｕｓｔｏｍｅｒ－Ｉｔｅｍ矩阵和聚类结果，利用上述算法就可计算所得的ＣｕｓｔｏｍｅｒＪ－Ｉｔｅｍ矩阵如下：

我们可以发现对于客户聚类Ｃ１来说，兴趣度从高到底排列的商品顺序是Ｉｔｅｍ５、Ｉｔｅｍ６、Ｉｔｅｍ４、Ｉｔｅｍ２、Ｉｔｅｍ３、Ｉｔｅｍ１。对于客户聚类Ｃ２则是Ｉｔｅｍ５、Ｉｔｅｍ２、Ｉｔｅｍ４、Ｉｔｅｍ６、Ｉｔｅｍ１、Ｉｔｅｍ３。对于客户聚类Ｃ３是Ｉｔｅｍ６、Ｉｔｅｍ３、Ｉｔｅｍ４、Ｉｔｅｍ２、Ｉｔｅｍ５、Ｉｔｅｍ１。对应于上文描述的所发现的交叉销售兴趣度，通常可以制定如下的交叉销售策略：（１）针对每个客户聚类组，选择兴趣度较高的几种商品对于该聚类客户进行捆绑销售，提供优惠策略，刺激消费，从而提高企业效益；（２）对于某聚类中的新客户或者老客户没有购买的但是具有较高的兴趣度的商品，进行适时的提示，提醒客户是否需要，是否忽略了该商品；等等。５．结语

客户关系管理与数据挖掘是一个多学科交叉的、新兴的研究领域，很多的技术都是在进行试探性的应用，目前主要是从应用的角度出发探讨数据挖掘的合理方案和达到的目标，尚未形成独立的理论体系和基础，其本身的定义也局限于使用研究的

目的来界定。基于客户聚类的交叉销售解决方案，可以解决目前Interest(Ci,itemj)的关联分析解决方案很多不足的地方，加深了对客户事务数据的分析，发掘出更多的客户知识，扩展了对于交叉销售的更加具 1

*∑w(itemj,customer)有针对性的决策支持。目前数据挖掘与客户关系管理相结合已|Ci|Á∈ÉÂÃÄÅÆÇÈ但是数据挖经成为了研究的热点，是一个具有广阔前景的领域。

表示的是类Ｃｉ中客户对于商品Ｉｔｅｍｊ的平均购买度（ＣＡｖｇＢｕｙ－掘的一般原理与针对特定应用领域需要的有效数据挖掘工具之Ｄｅｇｒｅｅ），｜Ｃｉ｜表示的是客户聚类Ｃｉ中客户的数目，表示的是聚类间，还存在不小的距离，将有大量的问题有待提出，而对已经提中某客户购买的商品Ｉｔｅｍｊ的数量；某些商品在某个客户聚类中出的问题的解决方案尚有探讨的余地。未来还有更多的工作需的平均购买度可能不是很高，但是如果这种商品在全体客户中要开展，包括对于算法的研究都有待进一步深入探讨。的平均购买度比较高，则表明该商品经常被大多数的客户购买，这也是一个很重要不能忽略的信息。参考文献：

∑

w(itemj,customeri)

陈宁、周龙骧．数据挖掘技术及应用［Ｍ］．北京：科学出版社，２００６．１．陈安、

梁静国．基于模糊聚类的客户分类应用研究［Ｊ］．物流科技，２００５，３．宋艳、

（０１）．

高慈．基于客户价值评价的核心客户识别研究［Ｊ］，２００６，（０４）．４．汪波、

５．黄莹．基于关系营销的市场细分变量研究［Ｄ］．吉林大学，２００７．

蔡淑琴．分析客户交叉销售能力的方法［Ｊ］．商场现代化，２００７，６．刘朝华、

（２２）．

７．刘才果．基于数据挖掘技术的客户关系管理系统研究与开发［Ｄ］．重庆大学，２００６

蔡鹭新．交叉销售提升客户忠诚度［Ｊ］．企业管理，２００４，（１０）８．吕巍、

Â=王伯良．客户关系的聚类分析［Ｊ］．科技创业月刊，２００７，（１）．２．张丽娟、