数据挖掘在移动通信中的应用

更新时间:2023-12-17 01:58:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据挖掘在移动通信中的应用

摘要:本文简单介绍了何为数据挖掘技术,数据挖掘所需要的条件、数据仓库的建立,以及为什么要应用在移动通信中和在移动通信中经常用的两种算法-决策树算法和K最近邻算法,并且较为详尽地阐述了它们的工作原理。 关键词:数据挖掘 移动通信 决策树 KNN

Data Mining in Mobile Communication

Abstract:This paper briefly describes what is data mining technology, The conditions required

for data mining, Data Warehouse.and why to be applied in mobile communication and mobile communication is often used in the two algorithms- Decision tree algorithm and K nearest neighbor algorithm, and a more detailed illustration of their works.

Keywords: Data mining, mobile communications, decision tree, KNN

一、引言

截止2010年,我国手机用户达到7.38亿,全球手机用户数量超过50亿。伴随着手机用户数量的快速增加和移动通信技术的技术革新,从2G到3G的进步,移动通信市场竞争惨烈。如何才能更好地把握客户心理及行为习惯,提供更加人性化和具有针对性的服务,从而在激烈的市场竞争中立于不败之地?数据挖掘技术将是一种解决方案。 二、何为数据挖掘

何为数据挖掘?数据挖掘包含了一系列以从数据集中发现有用而且尚未发现的模式为目的的技术。同时数据挖掘也是一个知识发现的过程。它是从海量的不完整、有噪声的、模糊的和随机的数据中,分析隐含在其中的,人们不能明显看出,但是又合理并且有利用价值的信息的过程。简单的说就是从海量数据中挖掘隐含在其中的有价值的信息。一个很著名的实例是沃尔玛发现的啤酒和尿布的联系。

数据挖掘是计算机和数据库技术的一个研究热点,目前比较有影响力的系统大多是国外的系统,我国国内的研究相对落后,这与我国经济发展以及市场需求是比较矛盾的。 三、数据挖掘在移动通信中应用的条件

目前移动通信运营商大都具有客户服务呼叫中心、业务受理网站、业务运营系统等。分散的各个信息系统都各自比较完整地管理者客户某一部分的信息,海量的客户数据、账务数据、市场营销数据以不同的数据结构和访问方式分散地存放在物理上或者逻辑上隔离的数据库中,形成数个彼此独立缺乏联系的信息数据库,这些数据库中有大量冗余和不一致存在,对于数据挖掘过程中数据必须具有单一试图的要求不能满足。从图1可以比较形象地看出分散的数据库的弊端。

分析1 分析2 分析3 客户DB 客户信息 业务DB (客户+业务) 运营DB(客户+消费+业务) 客户和业务基本信息冗余

图1

这些系统都是事物型的联机处理系统,实时处理在线事物,即处于不断的变化当中。不能形成一个稳定的分析环境。之所以要这样,是因为数据挖掘需要在数据仓库的基础上进行大数量级的频繁操作,具体包括查询、分析、取样等等。这样把之前各个独立的数据库系统联合在一块便形成了可供数据挖掘用的数据仓库1。

数据仓库有很多新的特征,一般来说,数据仓库是面向特定主题的,有特定的挖掘目标,在一定的时期之内要保持相对稳定。数据仓库的数据来源于各个联机事务处理系统,这些系统以固定格式把原系统中的信息提交给数据仓库,具体包括客户基本资料,客户消费记录,客户呼叫对象记录等信息。数据仓库在接受到这些信息之后,按照特定组织规则进行分类、存储,然后进行特定目的的分析和数据挖掘。数据仓库和传统的联机处理系统关系如图2所示。

数据仓库(用于数据挖掘) 文件 文件 文件 客户DB 客户信息 业务DB (客户+业务) 运营DB(客户+消费+业务) 客户和业务基本信息冗余

图2

四、数据挖掘算法在移动通信中的实际应用

在移动通信行业的数据仓库中,运用较多的数据挖掘算法是决策树算法和邻近算法(k 最近邻算法)。

1. 决策树算法

在数据挖掘的过程中,决策树是一个预测模型:它代表的是对象属性值与对象值之间的一种映射关系。树中的每个节点代表着数据仓库中的一个对象,每个分叉路径则代表某个可能的属性值,而每个叶节点对于具有上述属性值的子对象。一般来说,决策树输出结果单一,如果需要多个输出,建立多个独立的决策树是很必要的。

决策树学习也是数据挖掘中的一个普通的方法。在这里,每个决策树都描述了一种树形结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠源数据库的分类进行数据测试。这个过程可以以递归方式对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归结束。另外,随机森林分类器是许多决策树的结合,可以用来提升分类的正确率2

决策树同时也可以依靠计算条件概率构造,决策树如果依靠属性的计算方法可以有更加精确的效果。

决策树的工作原理:

决策树的生成顺序一般为自上而下。

选择分割的方法有多种,但是目的都是一致的,即对目标类尝试进行最佳分割。 从根节点到叶子节点的每一条路径都成为规则。 决策树可以是二叉的,也可以是多叉的。 对每个节点的衡量:

(1)经过该节点的记录数;

(2)如果该节点是叶子节点,分类的路径; (3)对叶子节点正确分类的比例。

如下是一个比较简单的二叉决策树框图:

图3

决策树算法主要用于对初始数据仓库的分析,以便把用户分为几种不同的类别,其中按地域可以分为本地型和漫游型;根据通信时间的人数可以分为闲时和忙时,根据消费习惯可以分为娱乐型和商务型等等,分别为不同的类别提供不同的服务,给客户提供优惠,提高自己的竞争力。

2. 邻近算法

图4

图4中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色正方形?如果在K=3的时候,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果在K=5的

时候决定,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。

K最邻近(k-nearest neighbor, KNN)分类算法,是一个理论上研究比较多的方法,也是比较简单比较容易实现的机器学习方法之一。K最近邻方法的原理是:决定一个新样本属于哪个类别,主要是根据新样本选定范围内哪种类别的对象最多决定的。K最邻近算法中,被选择的类比对象都是已经正确分类的对象。KNN算法判别新样本的类别归属,只是根据最近的样本数目来判别,并不太依赖极限定理。对于在特定范围内存在较多交叉或者重复度很高的样本空间来说,KNN是比较理想的算法。

KNN算法除了可以用于分类,另外还可以用于回归。通过计算一个样本周围的k个最近邻居,将这些邻居各个属性的平均值赋给该样本,就可以得到该样本的属性。更加精确的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比1

KNN算法在分类时有个主要的不足:当样本的比例不平衡时,如一个类的样本容量比其他类样本容量大很多的时候,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。因此可以采用增加权值的方法(和该样本距离小的邻居权值大)来修正。该方法另外一个缺点是计算时间较长,因为对于存在大量类别点的样本来说,需要及时所有点到每一个样本的距离,时间复杂度为n*m。对于样本空间很大的数据仓库来说,在计算之前要进行剪辑,剔除无用点,减少计算量。这种方法比较适用于大数量的样本空间,对于数目较少的样本空间可能导致较大误差3。

采用KNN算法时比较容易把新的客户经行分类,参照分类结果的类别特征,为新客户提供符合其自身特点的个性化服务。

五、结论

在看似无联系的海量数据中,其实存在着很多特点的联系模式,在竞争激烈的移动通信市场,哪家公司能够更早,更精确地发现其中的秘密,就能在竞争中立于不败之地。 参考文献:

[1] 梁循. 数据挖掘算法与应用. 北京大学出版社,2006; [2] 邵峰晶. 数据挖掘原理与算法. 科学出版社,2009; [3] 陈志泊. 数据仓库与数据挖掘.清华大学出版社,2009;

[4] 白云晖,郑怡文.数据挖掘在影院信息管理中的应用分析.现代电影技术.2006.6.11. [5] 王燕莉.安世全.数据挖掘技术在移动通中的应用.中国数据通信.2004.1.20. [6] 王韬;. 据挖掘技术及其在通信行业中的应用.科技创新导报. 2009.9.1

本文来源:https://www.bwwdw.com/article/4zf5.html

Top