SaCa RealRec客户挖掘案例分析:中国银行客户流失预警总结

更新时间:2023-05-11 10:13:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

客户挖掘案例分析,中国银行

中国银行客户流失预警总结

技术战略发展部

孟令胜1

1. Email:menglsh@

客户挖掘案例分析,中国银行

目录

背景介绍 ................................................................................................................................... 3

问题阐述 ................................................................................................................................... 3

解决思路 ................................................................................................................................... 4

与客户流失相关的关键因素分析 ........................................................................................... 4

建立模型 ................................................................................................................................... 5

原始数据 ............................................................................................................................... 6

SPSS模型 .............................................................................................................................. 6

Mahout模型 ......................................................................................................................... 7

两种模型的对比 ................................................................................................................... 8

进一步研究 ............................................................................................................................... 8

客户挖掘案例分析,中国银行

背景介绍

高端个人客户数量少、价值高、利润丰厚,对商业银行发展个人金融业务及至公司金融业务都极为重要,一般来说,20%的优质个人客户贡献了80%以上的利润。在中国,更为明显的社会收入差距使得优质个人客户的作用更为重要。研究表明,在中国10%的优质个人客户贡献了至少90%的利润。由于各种因素的不确定性和市场的不断增长,以及一些竞争对手的存在,很多客户不断地从一个供应商转向另一个供应商,只是为了求得更低的费用以及得到更好的服务,这种客户流失在许多企业中是普遍存在的问题。因客户流失导致的损失是巨大的,因为获取一个新客户,要在销售、市场、广告和人员工资上花费很多,而且大多数新客户产生的利润不如那些流失的客户多。据统计,赢利一个新客户所花费的成本是保留住一个老客户的5到6倍。因此保住老客户,提前预测出潜在的流失客户,防止因客户流失而引发的经营危机,对于提高企业的竞争力具有战略意义。

问题阐述

对于中国银行上海分行现在中高端客户数大概在20万左右,去年是24万左右,相对于去年来说,中高端客户总量流失了16.7%(银行方面计算的是(24-20)/20=20%),在银行领域来说这个比例相对较高,因此分行现在急需一些有效措施对中高端客户流失进行预警。

客户主要想通过分析中高端客户资金流失去向,比较存量中高端客户与流失中高端客户在金融资产、产品持有、金融行为等特征上的差异,建立中高端客户流失预判模型,筛选潜在流失客户,其实也就是一个分类问题。后续根据模型的可解释性制定差异化的产品、服务、营销策略,预估营销活动对降低中高端客户流失率的效果。

客户挖掘案例分析,中国银行

解决思路

按照一般分类问题的解决思路,首先要选取与流失率可能相关的因素变量,分析这些变量与流失率之间的关系,筛选出合适的变量。在流失预测中一般采用决策树模型(当然也可尝试其他模型),再根据模型测试结果进行参数调优。

需要注意的是,客户流失率相对于一般的分类而言不会太高,一般会在20%以下,这样就导致样本中的流失客户占比非常低,需要分类模型能够区分这些小比例的数据。另外,银行往往关注的重点是流失部分客户的预测,也就是比较偏向于召回率。在调模型参数的时候需要注意这两个问题。

与客户流失相关的关键因素分析

1.资金流向:对客户资金流向交易行为进行分类,从资金量、交易对手、交易频率等维度,分析包括:异名同行汇划、同名他行汇划、异名跨行汇划、大额取现、三方支付、三方存管保证金等不同渠道的客户交易行为。

2.产品到期:分析客户持有的表内、外理1财产品、集合信托及各类代销产品到期后的资金流向,梳理由于产品到期未能有新产品承接导致客户流失的原因。

3.交叉覆盖:对中高端客户产品交叉持有覆盖情况进行分析,产品包括但不限于:存款、贷款、信用卡、网银、基金、第三方存管、表内理财、表外理财、债券、集合信托、券商集合资产、借记卡、手机银行等。另外,对持有单一(只持有单一产品的客户还是单一产品的分析)产品(主要是存款或理财产品)的客户进行流失原因分析。

4.信用卡交易:对中高端客户信用卡月消费额变动情况进行分析,寻找信用卡消费额的变动与客户流失之间是否存在一定关联性。

5.客群定位:对不同金融行为的中高端客户进行分类,包括:信用卡客户、跨境类客户、投资理财类客户、代发薪客户、养老金客户、个贷类户等进行分析。以上客户定义如下:

信用卡客户群:名下有至少一张信用卡的客户(不含销户、转呆、冻结); 代发类客户群:各代发类客户(不含养老金); 1与其他投资一样,投资者购买银行理财产品是要承担一定投资风险的,而且不同理财产品具有不同的风险收益特征。有的产品是保本型理财,属银行自营业务,投资者承担的风险相对较小,属于表内理财产品。有的产品是非保本型理财,属银行代客经营的中间业务,银行收取手续费,投资风险由投资者自行承担,属于表外理财产品。

客户挖掘案例分析,中国银行

养老金客户群:持有常青树卡客户;

投资理财客户群:当年发生过理财产品、基金产品交易的客户。

个贷客户群:有个人贷款余额的客户(不含国家助学贷款客户、GMAC

项目客户);

跨境客户群:办理过跨境业务产品的客户,包括结售汇、国际汇款、信

用卡境外消费、外汇留学贷款、旅游保证金等业务的客户。

---时点客户(?)基本信息中添加:是否信用卡客户(参照开卡日期)、是否代发类客户(当月有代发记录)、是否养老金客户(长青卡开卡日期)、是否持有理财产品(当月理财产品余额大于零)、是否持有贷款(除国家助学贷款客户、GMAC项目外贷款余额大于零)。

6.投诉处理:对有拨打客服电话进行业务反馈或投诉记录的中高端客户,分析其投诉当月及之后是否流失

7.业务频率:分析一段时间内(时间跨度通过预警模型进行细分)客户在我行全渠道业务(活期)办理频率与客户流失之间的关联性。

8.互动记录:从我行客户维护端,围绕客户经理与客户之间的互动行为(包括:短信关怀、电话互动等)进行分析。

9.贷款业务:对贷款中高端客户还款情况进行分析,了解在客户贷款偿清前一段时间内的交易情况(可提前对这类客户进行其它产品的营销),以及偿清后是否存在流失情况。

10.客户基本信息:性别、年龄、房产、单位性质、单位所属行业、职业、客户等级、月收入,构建客户全景视图。

11.交易记录:该类数据量大,从中分析客户交易的时间、地点、频率、金额、类型(取现、网上交易、转帐、购物、理财产品、贷款、缴费等等),也可分不同的时间段统计,总结客户的交易行为特点。

12.AUM(Assets Under Management客户在银行的可控资产,包括存款、理财投资基金、保证金等)的变化情况

也可基于上述因素构建新的变量,比如,计算AUM相邻两个月的变化率,将这个变化率作为一个因素加入后续模型。

建立模型

为了模型的可解释性,流失预测一般选取决策树模型。下面介绍在中国银行

客户挖掘案例分析,中国银行

上海分行的具体实施情况。

原始数据

原始数据共20w条,用户ID,12个因素变量(性别,房产,年龄,开户时长,是否持有信用卡、白金卡、理财卡,5、6、7三个月AUM值,AUM值5到6月、6到7月的变化),类别标识为8月份客户是否流失。实际数据中流失客户只占3%左右。

关于流失客户的定义,中国银行上海分行对于客户流失的定义为连续三个月AUM值小于20万的用户,但通过实际分析发现,连续两个月AUM值低于20万的客户与连续三个月的相差很少,再进一步分析发现,单个月AUM值低于20万的客户与连续两个月的相关也很少,因此,在实际整理样本数据时,直接选取7月份AUM值高于20万的客户为全部样本中高端客户,并根据其8月份AUM值是否高于20万来定义其是否流失。简单来说,就是用5,6,7三个月的数据来预测8月份客户是否流失。

SPSS模型

利用SPSS clementine构建了决策树模型,考虑到流失客户占比过少,他将流失客户的数据量放大了15倍,至于如何放大,是重复还是分析现有数据特征重新生成,由clementine来做,我们不知道。

构建模型需要有建模数据和测试数据,他设置6:4的参数来分配两者比例,至于clementine如何选取数据,我们也不知道。但估计应该是各分类数据都按照6:4的比例来分配。

模型构建成功后,clementine给出了各个因素的重要度,主要有三个:5月份、7月份的AUM值,6月到7月的AUM值变化率。其它几乎可忽略,至于这几个因素如何得到,我们不知道。

模型构建成功后,clementine给出了测试数据如下:

我们关心的是流失部分的指标:

准确率为1770/14461=12.2%

客户挖掘案例分析,中国银行

召回率为1770/2381=74.3%

Mahout模型

利用mahout-examples-0.7-cdh5.1.0-job.jar包内的随机森林算法(决策树的一种),主要步骤如下:

1. 原始数据处理,过滤原始数据中数据不全的用户,并按照可设置的比例分配建模数据和测试数据,由于流失用户数据过少,在建模数据中按照可设置的倍数复制该部分用户的数据。(该部分处理自己写程序实现)

2. 设置参数构建模型。流失客户召回率最高时的参数为

a) 建模测试数据比为9:1,流失客户数据放大倍数为20

b) 随机森林模型参数-p -sl 4 -t 40 -ms 50,其中

–p Optional, use the Partial Data implementation

–sl 每次随机选择属性的个数

–t 决策树的个数

–ms 树分枝上样本的个数的最小值

调整参数的过程中,流失客户的准确率和召回率变化情况如下

3. 编写程序用于实际处理。该部分本想直接在内存中加载模型进行预测,结果API没调用成功,用了另一种方式。即,将预测数据加上类别标签,当作建模过程中的测试数据,相当于又做了一次“测试”,程序会将各个客户的预测类型输出到HDFS上。

客户挖掘案例分析,中国银行

两种模型的对比

对于流失客户准确率与召回率的对比

SPSS属于传统BI领域内非常成熟的数据挖掘工具,拥有方便的图形化界面,便于操作人员上手,操作人员无需知道其内部如何运作。

基于Hadoop平台的mahout模型只是一个算法包,甚至连数据预处理功能都没有,它对比于SPSS又有哪些优势和劣势?

优势:

平台免费,SPSS clementine商业版是收费的。

支持非结构化数据类型(数值、文本)、能够支撑超大规模的数据集(交

易历史数据、社交网络数据),SPSS clementine能够支持的数据类型有限制,无法对文本类型数据进行有效的处理,并且只能支撑一定量的数据规模,对于百万级及更高的数据量无法处理,无法分布式运算。

平台+二次定制开发,能够与业务紧密结合,更灵活。基于Hadoop平台

的模型可以按照业务需求定制开发,在建模的过程中,可以根据数据的分布特征,有针对性地对各种不同的变量的不同特征模型进行不同的处理,而SPSS clementine只能按照既有的模式进行操作。

大数据代表未来的发展趋势和先进性。

劣势:

模型可视化能力欠缺

小数据量情况下效率不高

对开发人员要求高,开发人员既要有hadoop平台开发经验,又需要对

相关的业务知识有一定的了解。

进一步研究

扩展影响因子:9大因素(资金流向,投诉处理,产品到期,交叉覆盖,信用卡交易,客户群定位,业务频率,互动记录,贷款业务)加入到模型中去

客户挖掘案例分析,中国银行

分析影响因子与流失率之间的关联特征

– 数据有效性分析

– 直方图分布

– 相关性检验(pearson相关系数、spearman相关系数)

– 卡方检验(影响因子的重要度)

– 影响因子之间的相关性分析

增加训练样本量

交易历史数据的利用

扩展

– 抓取用户的社交网络数据,分析用户兴趣,挖掘潜在客户

另外,存在一个问题,模型的推广性不强。由于构建模型的思路是由5,6,7三个月的数据来预测8月份的流失率,也就是说模型很有可能针对8月份的效果比较好,那么预测9月份会是什么效果,用6,7,8月份的数据代到上边的模型里去吗?

正确的做法不应该把具体的月份代入到模型里去,而应该有1,2,3月预测4月的数据,2,3,4月预测5月的数据,以此类推。

还需要注意的一个问题是,由于银行的很多产品具有季度性,银行的考核也有季度性由此带来业务上的一些优惠等措施,对流失率影响比较大,在选取数据构建模型时都应该有所考虑。

本文来源:https://www.bwwdw.com/article/cfbe.html

Top