数据挖掘在金融领域中的应用研究

更新时间:2023-07-21 22:22:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据挖掘方面的知识,很有用

数据挖掘在金融领域中的应用研究

欧阳一鸣

汪曦东

(合肥工业大学计算机与信息学院,合肥!1"""2)

345)+6:789:2;<+,)$=>5$=,

论文介绍了数据挖掘的几种主流技术,并将其应用于金融领域。针对金融领域中的反洗钱活动,分析了数据挖

掘技术的应用特点,提出了一个实际的应用系统原型,论证了其中的一些关键技术,并给出相关的解决方案。该系统的实现对于防范和打击金融犯罪活动,具有重要的现实意义。关键词

数据挖掘

金融犯罪

反洗钱

实时监控文献标识码?

中图分类号@A1%%;@A%&

(!""#)文章编号%""!4&11%4%&4"!"&4"#

!""#$%&’$()(*+&’&,$)$)-$)’./0$)&)%$&#0$/#1

2.&)-3&)456&)-3$7$)-8&)-9&(8&)-:$1()-(B=C>>6>DE>5FG*HI),JK,D>I5)*+>,,LHDH+M,+NHI<+*8>D@H=C,>6>-8,LHDH+!1"""2)

!;<’=&%’:@C+<F)FHI+,*I>JG=H<J)*)5+,+,-),J)FF6+H<+**>*CHD+,),=+)6D+H6J$OH),)687H*CH=C)I)=*HI+<*+=>DJ)*)

5+,+,-),JFI>F><H)FI)=*+=)6)FF68+,-FI>*>*8FH+,),*+45>,H86)G,JHI+,-$K,JH*)+6<,PHJH5>,<*I)*H<>5HQH8*H=CR,+SGH<),JFI>N+JHIH6)*+NH<>6G*+>,<$K*<IH)6+7)*+>,C)<*CH<+-,+D+=),=HD>IQHHF+,-)P)8),J<*I+Q+,-D+,),=+)6=I+5H<$>/6?(=1<:’)*)(+,+,-,D+,),=+)6=I+5H,),*+45>,H86)G,JHI+,-,IH)6*+5H5>,+*>I+,-),J=>,*I>66+,-

%引言

随着数据库技术的成熟和普及,人类积累的数据正快速增

法钱财放入金融机构;(!)分账,也就是通过多层次复杂的转账交易,使犯罪活动得来的钱财脱离其来源;(1)融合,以一项显示合法的转账交易为掩护,隐瞒不法钱财。通过这些过程,罪犯就可把非法所得转移并融合到有合法来源的资金中。

但实际上,犯罪分子洗钱的形式是多样的。例如,可以与境外公司签订虚假合同,如购货、合资在境外办企业,出口不收汇、进口不到货,将境内资金或权益转移到境外等等。

所以,我们需要在银行的大量数据上建立一个应用系统,在结构上,它能够完成数据挖掘的一般任务,在内容上,能够综合金融领域知识,有监督地发掘洗钱活动的各种模式,找出洗钱活动的规律和特点,得出相关知识,帮助人们自动识别出手段不同的洗钱行为。

长,但对于这些数据还未能充分利用其价值,数据挖掘(’(———’)*)(+,+,-)便应运而生。目前,数据挖掘技术已在市场营销、客户关系管理等领域得到应用,作为新兴技术,在金融领域中的应用研究也于近几年展开,内容涉及:银行客户关系管理、信贷风险预警、金融市场变化分析等方面.#/。

金融犯罪是当今业内面临的棘手问题之一,其中洗钱活动日益猖獗,严重威胁全球经济发展和国家安全。目前银行业对于洗钱的防范和打击主要是通过建立法律法规,银行的具体防范措施有:为客户办理业务应当核对其真实身份信息;对可疑外汇现金交易进行核查;对于大额现金的流动应警惕跟踪,把有洗钱嫌疑的账户列入“黑名单”等。可见,目前对金融犯罪的打击还处于人为干预阶段,仍未见有成熟的数据挖掘技术应用于其中。如果能建立一个相关的应用系统来自动地识别洗钱活动、分类洗钱账户、预警洗钱行为,将能大大提高反金融犯罪的效率和力度。

下面介绍论文提出的反洗钱数据挖掘系统,并论述其中的一些关键技术。

!$!

反洗钱数据挖掘系统的主要功能

!任务分析

!$%金融领域中洗钱犯罪活动的特点分析

从金融机构的角度来看,洗钱是指犯罪集团或分子以银行或金融系统为媒介,利用其转移、储存、支付犯罪活动资金,以隐瞒或掩盖犯罪资金的来源、流向和违法性质的行为.0/。典型的洗钱交易过程是:(%)入账,即通过存款、电汇或其它途径把不

图%

反洗钱数据挖掘系统原型

反洗钱数据挖掘系统原型如图%所示,系统流程为:原始交易数据存储进数据仓库后,预处理模块在数据仓库中选取和

!"&!""#$%&计算机工程与应用

数据挖掘方面的知识,很有用

洗钱活动相关的数据,并用数理统计的方法产生有利于发现反洗钱的新属性。由于金融机构数据的海量性,需要额外为预处理后的数据增建一个数据库,有利于提高挖掘效率。挖掘引擎对预处理过的数据进行挖掘,发现知识。挖掘好的规则存入知识库备用,知识库中的规则和模式也可以经由可视化模块分析提交给管理者。作者增加了一个实时监控和分析模块,每当有新的交易数据产生时,该模块会参照挖掘数据库中的统计信息和已挖掘出的知识来判断这笔交易是否有洗钱的嫌疑。另外值得一提的是,在知识库和预处理两个模块间也有信息交互,因为账户的很多属性是不断变化的,例如,它的资金流量可能会随着企业的发展而增加,也可能由于经营不善而日渐萎缩,所以,根据挖掘出的规则有监督地调整预处理过程是十分必要的。

入帐方钢铁机械食品化工

出帐方

钢铁

表%

机械

食品

化工

"$’"$)"$!"$#

"$("$’"$!"$+

"$%"$*"$)"$+

"$%"$)"$%"$’

+$!挖掘算法

挖掘算法是整个系统最核心的部分,高效准确的算法能够

发掘出深刻全面的知识。根据金融行业的数据组织和洗钱的特殊模式,可以把数据从微观到宏观分为交易层、帐户层、商业网络层这+个层次,分别用合适的方法挖掘出各个层次的规则,低层挖掘出的知识用于高层的挖掘过程,逐层向上,联合挖掘多层次的知识。

交易层是最低层的数据,洗钱必定牵涉到一系列交易,(%)

比如现金存入、取出、电子交易、支票。这一层的挖掘任务主要在于提取各个帐户的交易特点和各行业的交易特点,主要方法是基于统计的方法。

对于特定账户的时间序列数据,可以利用数理统计方法发掘账户的行为规律。问题的形式化描述如下。设账户进货出帐(%,用子样中位数和极差估计参额近似服从正态分布,01/$!)数%和$,其中有定理:

…0#的中位数,则对任意%,有;<=3若9:是样本0%,0!,

#"2

+反洗钱数据挖掘系统+$%数据预处理

每次洗钱活动都牵涉到一段时间内多个账户之间的多笔交易,有效的预处理能够提取特征,利于下一步挖掘算法的高效运行。数据预处理可以从以下几个方面考虑。

(%)属性过滤。交易数据中并不是每个属性都和洗钱活动有关,例如开户人的姓名。也有一些无关的属性需要相关性分析技术来判断是否过滤该属性。问题的形式化描述如下:

设数据集!23"%,…"#4,数据的属性集$。现在检测%!$是否和目标属性&!$相关。

一个较直观的方法是,对于所有%的值排序后可以得到相应&属性值的分布。设%’表示第’条记录的%属性值,"(’(#,定义距离函数)2

(%*%!"

!

3

"

45*%)#%42%

"$5

%*2

*6

!

那么可以认为,当#很"6,

#

7-45。另外,大时可取%子样极差8的数学期望和方差分别为:628。(8)(8)那么可以推出$("#和:#值参9-"#$,!-:#!$!,

。考文献7)8)

确定参数后,给定单侧置信度!,那么置信区间即为(",%5,若某笔交易金额太大,落在置信区间外,我们就有%!$)

"理由怀疑这笔资金的合法性。

假设检验的数理统计方法还能应用于账户出入账频率的概率统计方面,假若发现久置不用的账户突然频繁出入资金,或者有人频繁销户开户,且账户在注销之前有大量资金流动,也有理由怀疑该账户。

帐户层数据是关于帐户交易特点的数据,这些数据一(!)

部分来源于预处理过程中提取的属性,一部分是对帐户在交易层上挖掘出的统计学特点。可行的挖掘方法是,按行业在大量不同账户之间进行分类或聚类分析。

典型的决策树分类问题描述如下。根据银行对历史数据的分析,为每个账户加上分类标签“可疑”和“正常”,就成为了训练数据。例如提取的表如表!。

表!

账户

注册资金

’0%

)5(&’*&’0%),可以描述此分布

的离散性,若超过设定的阈值,则认为这两个属性没有相关性,可以过滤属性%。

(!)基于领域知识的特征提取。有些特征,如某时段内的资金流动量、出入账频率等,和洗钱行为密切相关,但在原始交易数据中没有记录,可以用统计的方法计算,作为下一步挖掘的参考属性。可以用线性回归模型描述这种关系:

记注册资金属性为+,固定时段内的出入账总额为,,+’和,’

表示账户’的相应属性,假设+和,存在近似线性关系:+-!.其中!,(",。用最小二乘",.#,"是常数,#服从正态分布/$!)法估计!,得:",

#

#

#

62"

(!,’)(!+’)#!+’,’*

’-%

’-%

’-%!

(!,’)#!,’0

!’-%

’-%

62#6,#,!。(推导方法见文献+*"

。7)8)

这样,就可以估计出某个行业内账户注册资金和资金流动量的线性关系。

(+)统计出和某个账户有资金往来的所有账户,参考领域专家的意见分析账户行业之间的相关性,以一个相关系数表示,作为下一步挖掘的参考属性。各行业的相关性可以先存储为一个矩阵形式,例如表%。

(#)由于洗钱行为经常是和大笔现金或外汇的存入取出相关,所以,对于所有超过一定限额或频率的现金或外汇交易进分类训练集

是否可疑

注册资金,月资金流动额来往账户的相关性

%!+

-’"万’"0’""万’""0%"""万

.%"$&0%$""$*0"$&

"$+"$*"$&

/1/

设上述的训练集为;,属性分别为<%,分类决<!,<+,<#,计算机工程与应用!""#$%&!"(

数据挖掘方面的知识,很有用

步%:开始,!中所有数据都在根结点。属性都被离散化为种类字段。

选择一个基于启发式规则或统计度量,如信息增益步!:

(-./01234-0.53-.)或基尼系数(6-.--.789),按此属性的分类将当前训练集分叉。

以深度遍历的方法对每个分叉继续重复步骤!,直至步+:

分叉后的训练集类别一致。

这样经过训练后建立分类模型,就可以对其他数据进行分类来判断账户是否可疑。

商业网络层的数据挖掘。这一层数据描述的对象是有(+)

商务往来的若干企业和个人,他们的交易形成一个网络。因为一个完整的洗钱过程必定牵涉到多个帐户的多笔交易,那么对于这些帐户的关系及他们之间交易的特点进行分析是很有价值的。

拟先构造一个有向图数据结构描述账户间的关系,以及他们之间交易的特点,这些特点属性可以从交易层数据和账户层数据中统计得到,结构及形式描述如下:

节点结构:

.078:

=0.5;>>账号;0<.4:

;0<.4?441:@41-.5;>>属性A:B.4;>>出帐单位数量C<4D%$$AE:F-.8;>>出帐边

G

户。笔者称这种方法为连接分析。

+$+实时监控模块

实时监控模块的主要功能是,每当有新的交易发生时,就

实时将这笔交易与该账户过去的交易对比,用已挖掘出的知识判断这笔交易或账户是否有洗钱的可疑。该模块存储挖掘出的规则,类似于一个专家系统。具体可以有两种方法。

结合该账户已挖掘出的概率模型,利用数理统计的假(%)

设检验来验证该笔交易的可疑度,如果可疑度超过了用户设定的阈值,则提交可疑报告。方法类似于+$!节第一种挖掘方法。

利用已分类或聚类挖掘的规则来判断该笔交易是否可(!)疑。

#实验结果

首先对数据预处理部分做了初步实验。原始数据表是某个

机械制造业的企业账户在一段时间内的所有交易记录,共有这些数据并非银行原始数据结构,为了研究方便经过%(#条,

一定处理,结构如表+。

表+

交易时间

转帐方向入帐出帐出帐…

对方帐号所属行业生产资料制造业私人帐号钢铁…

金额

%’’()"*)+"%,:#*""%’’()"()%#&:"!%’’()"()!!%":

%"&+""&""!#(""

根据金融领域知识,以月平均为时间单位,拟提取的该账户的特征罗列如下:出账总额、入账总额、平均单笔出账额、平均单笔入账额,出账单位相关性、入账单位相关性。

各统计量计算方法如下:

(N:K10H87<18K-HL;M3133113O0/43P=8,Q:3113O0/43P=8)

边结构:

F-.8:

A078:.078;>>指向节点?H0<.4:B.4;>>平均月出帐额I18J:B.4;>>平均月出帐次数@:/=034;>>月出帐次数的方差

G

R31C<4@<2,B.@<2,C<4?S81,B.?S81,C<4Q8=34,B.Q8=34:/=034;

B:-.481581;T85-.

@843==S31-3P=8U40";I01-:V"40%#!70T85-.

B/7-18H4VW0<4W

4M8.@<24M8S31-3P=8UC<4@<23.7B.@<2;8=U8@<24M8S31-3P=8UB.@<23.7B.Q8=34;X.7;

;@84C<4?S81VC<4@<2(>4M8.<2P810/Y3O28.4);@84B.?S81VB.@<2(>4M8.<2P810/534M81-.5)

X.7;

图!

商业网络层的有向图表示

算法中的变量C<4@<2,B.@<2,C<4?S81,B.?S81,C<4Q8=34,运行的环B.Q8=34即是要得到的统计量。该算法用R;ZZ实现,

在%(#条记录数据上运行时间是%"毫秒,境是K#)!6>!,*[,

实验结果如表#。

表#

平均出平均入平均每笔平均每笔平均入帐平均出帐入帐总额出帐总额帐笔数帐笔数入帐金额出帐金额

相关度

相关度

其中,每个节点代表一个帐户,帐户之间如有交易则用有向箭头连接。节点包含的信息有帐户的交易层特点、帐户层特点,箭头上蕴含的信息有这两个帐户之间的交易特点,例如交易频率、交易量等。

对于这样的数据,要在其中独立地挖掘出和洗钱有关的知识是不可行的,因为这种数据模型并不能体现洗钱的具体模式。但是,如能结合工商、海关等调查数据挖掘,会高效快速挖掘出可疑节点。例如,工商机构查出一个皮包公司,根据这个公司的账户构造上述有向图,我们可以查到所有和其有金钱来往的账户及其和这间公司的业务关系,结合这些账户的交易层和

%#%,’+’#(%**"$(+"$,%!(!##*!"(&+*

结果表明从原始交易数据中能够提取基于领域知识的统计量,把大量账户的这些统计量计算出来并离散化后,就可以进行下一步账户层的分类或聚类挖掘。作者后续的实验就是从更多账户交易记录中提取特征统计量,然后再一起进行聚类和!%"!""#$%&计算机工程与应用

数据挖掘方面的知识,很有用

(进一步的工作

论文从理论上提出了反洗钱数据挖掘系统的框架,下一

论文针对金融领域的反金融犯罪方面,尤其是反洗钱活动,分析了数据挖掘技术的应用,提出了一个系统原型,具有现实意义。(收稿日期:!""/年%%月)

步,将在模拟数据上分析和实现各个功能模块,结合已有的算法理论,探索出适合反洗钱的有效算法。

另外,反洗钱领域仍有许多挑战,包括:

(%)与工商、海关、税务部门的合作和数据共享。洗钱行为通常都涉及到多家金融机构之间的资金流动,以及国内和海外企业的经营,如果能集合上述相关部门的相关数据,无疑会提高反洗钱数据挖掘系统的精度和效率。

(!)由于银行拥有海量数据,并且每天都有大量交易数据增加和更新,在此情况下开发高效实时的挖掘算法和监控模块将是很大的挑战。

(/)该方案采用了不同的挖掘算法,它们丰富了挖掘出的规则,起到互补的作用,但规则之间是否存在矛盾仍然未知,有待于在实践中验证。

参考文献

%$G<?U+<Y?2,;<A8+9<2+‘?=R+4$5?>?;<2<2ES-2A+\>C?23@+A82<B7+C!"""F;H$;-4E?2‘?7D=?22V7R9<C8+4C,

陈剑,陈国青$数据挖掘中的分类算法综述FGH$清华大学学报,!$刘红岩,

自然科学版,(’)!""!;#!

/$P<a<?2P8+2E,N-2‘-8?M<,Z9+U;?C-2$N+?91-493V+4D-4=?2A+-DOS;JI6‘55<2>+42?><-2?9A-2D+4XOCC-A<?><-2N79+O9E-4<>8=CFSH$I2:

+2A+-2‘2-U9+3E+3<CA-M+4K?233?>?=<2<2E,!""%bbUUU$D<2?2A<?9=+UC$A-=$A2b#$金融时报网$8>>\:

($金网在线$8>>\:bbUUU$DAA$A-=$A2b

人民币大额和可疑支付交易报’$中国人民银行$金融机构反洗钱规定;告管理办法$8>>\:bbUUU$\RA$E-M$A2ba<24-2ED?E7<b

’结论

%)&’0$汪荣鑫$数理统计F;H$西安交通大学出版社,

(上接%’(页)

的生成,文本数字水印算法。

该方案及其所用算法有如下特点。

可靠性高:由于诸如修改语句、添加语句、删除语句、移动语句等语句修改对原文破坏操作量小,这些小量的修改对整个待嵌入水印文本的语句分布影响甚微,因此这种根据语句分布来定位水印信息的位置有较高的可靠性。

抗攻击性强:在修改、添加、删除语句的攻击下,最好的情况是可以完整提取水印;在平均情况下,修改两个语句破坏!位水印信息的概率为)("#!$"#!)(,如果语句数比水印#%$%)信息位数大很多,这个数会很小。

对移动语句的攻击,最好的情况是可以完整提取水印;平均情况为修改两个语句破坏!位水印信息的概率达!*)("#(("为水印信息的位数,即字数乘以%’)。当水印!$"#!)#%$%)

信息为%!个汉字,文本为%""""句时,用移动语句攻击两个语句破坏一位水印信息的概率为"$""’’。

关联性有保证:各版权实体嵌入水印时使用的算法不同,只有拥有密钥信封的密钥才能提取水印,且提取的水印信息里有版权实体独一无二的标志信息,这就保证了水印嵌入和提取过程的独立性和非干扰性。水印信息里含有的版权实体间相互协商的信息、时戳签名及信息摘要都可用于说明各版权实体的水印信息在+,--.网络传播过程中的连贯性及不可抵赖性。

获得良好的继承性:一方面,各版权实体的水印信息内容里有对时戳的签名,这联系着他们之间嵌入的水印信息在时间上的顺序性和事件过程上的继承性(即发行商秘密水印信息的时戳必然晚于出版商的)。同时,水印信息内容里的文件摘要也为保证继承性提供依据;另一方面,各阶段所应用的算法也能体现继承性,在出版阶段和发行阶段,针对各阶段面临的不同问题,使用的是不同的水印技术,比如数字水印和数字指纹,而且每次嵌入的水印都是依据不同的特征。这样,水印信息的内容结合水印技术本身便可以唯一地确定具体环节和版权。可以通过提取不同阶段的秘密水印来确认所有权或泛滥渠道。

兼容性好:该方案所用水印算法,支持向后兼容,一旦新算法出现,仅需要做一下判断,就可将老版本的水印算法包括进去。

实用性强:该方案嵌入和提取简单易行,输入密钥信封或由于以上特点,该方案和水印技术有着广阔的前景。不可否认,由于当前数字出版的相关法律还不完善,遇到具体问题时还会有这样那样的问题。因此还需要有关法律来支持数字出版中的技术问题。

(结语

目前的水印技术大多是针对所有权的证明,还没人提及网

络出版中版权保护还需要解决关联性与继承性的问题,针对此现状,提出了参考模型,建议了水印信息的格式与内容,并给出了一个解决方案来说明各种性能的获得。具体实现了水印系统里的水印密钥信封的生成,多重文本水印嵌入与检测算法,版权实体间契约的协商。该方案能够将文本水印完整地贯穿于网络出版的各个环节中,一旦发现盗版,作者、出版商、发行商、用户就可以根据水印信息追查盗版者,并提取水印信息作为诉诸法律的依据。

另外,文本水印算法本身还有许多需要完善的地方,需要许多自然语言处理工具,需要改进算法增加嵌入信息量等。虽然文本水印目前还没有达到有效而广泛应用。但随着数字版权管理的不断完善,文本水印必将成为网络出版解决方案中有效的版权保护技术手段之一,从而推动网络出版的发展。(收稿日期:!""/年0月)

参考文献

%$1,+23+4,564789,:;-4<=->-+>?9$@+A82<B7+CD-43?>?8<3<2EFGH$I,;JKC>+=CG-742?9,%))’;/(://!L//(

!$M?2JA8K23+9N6,@<4.+9OP,QCR-42+ST$O3<E<>?9U?>+4=?4.FSH$I2:V4-A++3<2EC-D>8+%))#IWWWI2>+42?><-2?9S-2D+4+2A+-2I=?E+V4-A+CC<2E,%))#X"!:&’L&)/$JYZ-U,:T;?[+=A87.$V+4D-4=?2A+S-=\?4<C-2-D>U->+[>=?4.<2E=+>8-3CFGH$IWWWG-742?9-2J+9+A>+3O4+?C<2S-==72<A?X><-2C,%))&;%’:(’%L(0!清华大学出版社,#$卢开澄$计算机密码学F;H$第!版,%))&X"0

($O>?99?8;G,]N?C.<2,;S4-E?2+>?9$:?>74?9Z?2E7?E+1?>+4X=?4.<2E:5+C<E2,O2?9KC<C,?23?V4--DX-DXS-2A+\>I=\9+=+2>?><-2FSH$I2:IJ;-C.-U<>^+3$I2D-4=?><-2Y<3<2E:#>8I2>+42?><-2?91-4.C8-\,IY!""%,V<>>CR74E8,VO,_JO,V4-A++3<2EC,,+49<2:J\4<2E+4,!""%X"#:计算机工程与应用!""#$%&!%%

本文来源:https://www.bwwdw.com/article/cdcm.html

Top