R语言基于C5.0决策树识别高风险银行贷款

更新时间：2024-04-04 17:43:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

决策树C5.0推荐度：
相关推荐

【原创】附代码数据

有问题到淘宝找“大数据部落”就可以了

基于决策树进行银行贷款信用评级

一、引言 ................................................................................................. 3 （一）背景 ....................................................................................... 3 （二）研究目的与意义 .................................................................... 3 二、相关理论概述 ................................................................................. 3 （一）决策树 ................................................................................... 4 （二）算法 ....................................................................................... 4 三、研究现状 ......................................................................................... 5 四、实证分析 ......................................................................................... 6 （一）数据集市方案和分离数据集 ................................................ 6 （二）建立训练数据集决策树 ........................................................ 8 （三）评估模型性能 ........................................................................ 9 五、总结 ............................................................................................... 11 六、建议 ............................................................................................... 11 七、参考文献 ....................................................................................... 12

一、引言

（一）背景

从1981年到1983年开始，中国人民银行开始在我国六个省份开展而来信贷业务，后来政府决定中国人民银行不再开展商业银行业务，将商业贷款业务下放给各城市的商业银行。随着改革开放的开展，我国经济高速发展，个人信贷业务也随着快速发展，而个人信贷业务对提高内需，促进消费也有拉动作用。有正必有反，在个人信贷业务规模不断扩大的同时，信贷的信用等级不良等风险问题也日益突出，一定程度上制约着我国的信贷市场的健康发展。

（二）研究目的与意义

近年来，个人消费贷款的类型呈现出多元化的变化与发展，由原本的单一贷款种类发展到今天各式各样的贷款种类，汽车按揭贷款、教育助学贷款、耐用消费品贷款（家电、电脑、厨具等）、结婚贷款等在我国陆续开展。信用等级不良风险是指债务人由于各种原因不能按时归还贷款债务的风险，对于商业银行来说，信用等级不良风险主要是指由于贷款人得还款能力下降或者信用水平降低从而信用等级不良。

研究该主题的目的在于通过R软件构建模型，最终计算出样本量中的信用等级不良样本与未信用等级不良样本的比例，再与样本数据中实际信用等级不良与未信用等级不良的比例相比较，对比的出两者是否相近相符，从而得出该模型方法是否能运用到实际生活研究中。

二、相关理论概述

本文我们使用R语言的决策树算法对数据样本进行分析。

（一）决策树

决策树(Decision Tree)是用于分类和预测的主要技术，它着眼于从一组无规则的事例推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同属性判断从该节点向下分支，在决策树的叶节点得到结论。因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应着一组表达式规则。决策树是数据分析中一种经常要用到且非常重要的技术，既能够用于数据分析，也能够作预测。基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识,，只要训练事例能够用属性即结论的方式表达出来，就能使用该算法进行学习。

基于决策树的分类模型有如下几个特点:（1）决策树方法结构简单,，便于理解；(2)决策树模型效率高，对训练集数据量较大的情况较为适合；(3)树方法通常不需要接受训练集数据外的知识；(4)决策树方法具有较高的分类精确度。

（二）算法

是R的决策树模型中的算法，最早（20世纪50年代）的算法是由亨特提出，后经发展由J R Quinlan在1979年提出了著名算的ID3算法，主要针对离散型属性数据。C4.5是ID3后来的改进算法，他在ID3基础上增加了对连续属性的离散化。是C4.5应用于大数据集上的分类算法，主要在执行效率和内存使用方面进行了改造。

是经典的决策树模型的算法之一，可生成多分支的决策树，目标变量为分类变量。使用算法可生成决策树或者规则集。模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再拆分，通常是根据另一个字段进行拆分，这一过程重复进行，知道样本子集不能再被拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或修剪。

优点：（1）模型在面对数据遗漏和输入字段很对的问题时非常稳健。（2）模型通常不需要很长的训练次数进行估计。（3）模型也提供强大的增强技术以提高分类的精度。

三、研究现状

第一部分引言中提到，我国个人消费贷款起步较晚，发展迅速但伴随的信用等级不良问题也日益突显。针对这个现象问题，我国许多学者专家对该问题作出各深入的研究。

魏红涛，（2006年）《海南省个人消费信贷信用等级不良风险影响因素的实证研究》发现各种因素的重要性和影响程度有明显差异，其中影响个人消费贷款信用等级不良风险的因素主要是借款人的经济保障和收入稳定，其次是借款人的年龄婚姻属性和财务负担状况。

陈艳，（2011年）在贵州农村金融期刊中发表《浅谈个人消费信贷信用等级不良风险的影响因素及其风险管理》中提出，自1998年来，个人消费信贷业务占银行贷款的比重日益提高，而个人信贷信用等级不良风险也日益严重。要解决该问题，有必要采取措施：提高个人信用评级的真实性和准确性、加强个人信贷抵押担保管理建设消费贷款保险体系、健全专业个人消费信贷法律制度、构建全社会个人信用环境。

陈红，（2004年）《我国汽车信贷市场的现状及对策研究》通过对我国当前汽车消费信贷模式和市场格局的研究，发现我国信贷体系出现：消费信贷经营管理落后、相关政策法规不完善、个人征信制度缺失和传统消费意识障碍等问题。针对此问题，建议培育消费信贷市场、提高信贷服务水平、强化风险防范机制、建立社会信用体系。

车鸣，（2003）《信用卡消费贷款发展的影响因素分析及对策研究》中提出信用卡对消费信贷发展形成良好的推动作用，在我国具有广阔的前景，是启动内需和拉动宏观经济增长的重要手段。但是有诸多因素制约其发展，外在制约因素包括个人信用制度的缺失、法律法规的不完善、政府推力不足。而自身发展也存在问题：市场无序竞争的非产业化经营是根本发展的策略上的缺陷，业务受理环境的培育不够、营销策略缺乏创新。

屈艳芳,郭敏（2008）在《海南金融》中指出，个人消费信贷业务是商业银行贷款业务的创新，有利于促进消费的加大和经济的增长。但由于各种因素的存在，个人消费信贷业务中存在的问题日益明显，我国个人信用制度不健全等问题

也暴露出来。

四、实证分析

数据在软件进行操作的过程中，我们一共分了四步，分别是数据分析和分离数据集、建立训练数据集决策树、评估模型性能、提高模型性能。

（一）数据集市方案和分离数据集

在数据进行分析时，可以从卡的性质中知道所有申请者的信用等级不良情况。

指标名称 USRSYSID 车辆ID 合并方式分为是否为金卡还是卡性质卡类别卡性质发卡行普通卡 CITYCODE和CITY选取CITY 交易金额、手续费一个相加 CITY 总金额相加合并后新生成指标 USRSYSID VIP 新生产指标处理方式是金卡（白金卡金卡），其他选取一个

在分离数据集这一步，我们将数据分成两部分：用来建立决策树德训练数据集和用来评估模型性能的测试数据集，按照80%训练集和20%测试集来分离样本。

总的来看，这两个数据集的比例是大致相同的，所以分离的两个数据集是合理的。

（二）建立训练数据集决策树

图1

图1是训练数据集决策树的基本情况。样本数据一共有199组，决策树的支点有7个。