垃圾邮件过滤技术发展现状及展望

更新时间:2023-04-20 21:57:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

电子邮件随着Internet的发展给人们带来了方便,但随之而来的垃圾邮件也给人们带来了不少的烦恼。针对垃圾邮件技术的发展与现状,本文对目前的垃圾邮件过滤技术进行了分析,并指出垃圾邮件过滤的发展趋势。

与兰 l竺 珊’ J应用

学术论坛

垃圾邮件过滤技术发展现状及展望石铁峰

(西机电职业技术学院广西南宁 500)广 307摘要:电子邮件随着Itre的发展给人们带来了方便,随之而来的垃圾邮件也给人们带来了不少的烦恼。对垃圾邮件技术的发展与现 nent但针状,文对目前的垃圾邮件过滤技术进行了分析,本并指出垃圾邮件过滤的发展趋势。 关键词:垃圾邮件邮件过滤过滤技术中图分类号: P 9 .9 T 3 30 8文献标识码: A文章编号:0 79 1 (0 20—2 1 2 1 0—4 62 1)50 1- 0

1、引言在It n t n e e迅速发展的今天, r电子邮件在为人们提供便利的同 时,随之而来的垃圾邮件也给人们带来了不少的麻烦。据统计,全球 8%的邮件是垃圾邮件, 0电子垃圾邮件确实令人们感到很厌烦。 因此,在互联网快速发展的今天解决好电子邮件的过滤问题具有重要的现实意义。文就目前垃圾邮件过滤技术发展现状作简要的介本绍与分析,并对未来的研究方向进行了展望。

决策树是著名的规则方法之一。的基本方法是从一组无规则它的事例中推断出决策树表示形式的分类规则,用自顶向下的递归采方式,决策树中通过对内部节点的属性值进行比较,该节点向在从下分支对不同属性进行判断,在决策树的叶节点得到结论。因此, 在整棵树中从根节点到叶节点就对应着一组表达式规则。著名的决策树算法有 I 3 C .等。用决策树来过滤垃圾邮件取得了良好 D、45使的效果。2 2 3粗糙集 ( u h S t .. Ro g e s)方弦

2、垃圾邮件过滤技术分析21于黑白名单的过滤技术 .基黑名单是一种被广泛应用的垃圾邮件过滤技术,采用列表的它方式,邮件服务器的 I地址、名或者 E—ma地址列入其中,将 P域 i l通常把这种列表称为“黑名单”当网络中的服务器收到邮件后,到,先“黑名单”上去查找,如果发件人在名单中,就拒绝接受。黑名单是基于用户投诉和采样积累而建立的、由域名或I P地址组成的数据库。 这些数据库保存了频繁发送垃圾邮件的主机名字或I地址,邮件 P供服务器进行查询,后就

可以决定是否拒收邮件。名单通常是由最黑些非盈利性的反垃圾邮件机构来提供的,如中国反垃圾邮件联盟就属于这类机构。 白名单是相对于黑名单来说。它建立的数据库的内容和黑名单一

的一样,是其性质是:中存在的都是合法的,但库不应该被阻断。库中的“用户”一般都会有一些可靠的联系人。些联系人所发的邮件这正常隋况下都不是垃圾电子邮件。白名单技术就是根据这种现象而提出来的,检测到与黑名单相反的用户时,可靠的联系人的邮当将箱地址记载到白名单中,当接收到这些联系人的邮件时,统会每系自动将其按正常邮件处理。 22基于规则的过滤技术 .基于规则的过滤就是在邮件内容中寻找特定的模式,括信头包分析、发过滤和关键词精确匹配等。类方法效率较高,则库可群这规以共享,广性很强。不足之处在于规则需要用户手工创建和维推但护,更新速度慢,且新规则的产生速度往往跟不上新垃圾邮件出现的速度,即它的时效性较差。基于规则的过滤方法主要有Rip r决 pe、策树 ( c in Tre和粗糙集 ( u h S t): Deio e ) s Ro g es等2. 1 Ri p r 2. p e

Ro g es论是波兰科学家帕拉克 ( P wlk于 1 8 u h St理 Z. a a ) 9 2年提出的一种研究不完整、确定知识和数据的表达、习、纳的理 不学归论方法。粗糙集理论具有很强的定性分析能力,能够有效地表达不确定的或不精确的知识,于从数据中获取知识,能利用不确定、善并 不完整的经验知识进行推理等,在知识获取、则生成、它规决策分析等领域获得了广泛应用。 u h S t Ro g es通常经过属性约简(消除对决策属性没有影响的属性)和属性值约简(消除对决策属性没有影响的属性值 )来简化分类规则。将粗糙集方法引入到垃圾邮件过滤取得了很好的效果。 23基于规则的过滤技术 .基于规则的过滤技术首先对已分类的邮件样本进行学习,形 成相应的规则,后再依据这些规则对邮件进行分类过滤,同时 然通过学习对规则进行更新。于规则的过滤技术是当前主要的研究基方向,已有的算法

包括贝叶斯过滤方法、支持向量机、 osig方 B ot n法等。2. 1贝叶斯过滤方法 3.

朴素贝叶斯过滤器是垃圾邮件检测领域中的一种常见方法, 在反垃圾邮件软件中得到了广泛的应用。是一种基于规划的分类算它法,常是把垃圾邮件和正常邮件分成两种类型,过对训练样本 通通库的分析,炼出各特征词在这两种邮件中分别出现的初始概率。提 当新的电子邮件到达的时候,首先提取出特征词,依据训练样本库中学习的概率来判断新到达的邮件分类为垃圾邮件或者正常邮件的概率。同时,也将该邮件放人训练样本库,以便不断修正初始概率。使用朴素贝叶斯过滤器,检测的准确性相当高,但是它有一种不足之处,那就是需要维护训练样本库,而这个样本库的维护工作往往是由用户来参与完成。

R p e( rR p ae n rmetlP t n oP o ueE rr ip r f e etd Ice na r o mig t rd c ro 2 3 2支持向量机 .. R d cin是 Wi im W . o e对 I P Ice na e u e e ut ) o l a C h n RE (n rme tlR d cd l近年来,关支持向量机 (u p r co c ie,称有 S p o t Vetr Ma h n简 E rrP u ig算法的增强实现程序。算法可以从数据集合中得 S M ) ro rnn )该 V的研究在我国得到了广泛开展,是美国统计学习理念的创它到规则集合,每条RIP R P E规则由一些规则前件和结果组成,它包括始人Va nk p i等提出的一种机器学习方法,它首先将训练数据集转了更好的剪技和停止准则以及对规则集合的后处理。该算法先学习 换到一个高维空间,然后在这个高维空间中求出最优线性分类超平训练集中的所有正例,断地向~初始集为空的规则集中加入规面,就在输入空间产生一个最优非线性决策边界。这个特征空不这在则,形成一个正例的规则集,接着就利用所有反例把约束条件不断间中支持向量机的分类超平面是最优的分类超平面,然后可采用线地加入到规则集中的关键字中,就根据这个包含了约束条件的性分类器进行分类。文本分类中, VM是公认的较好的方法之

最后在 S将支持向量机用于英文状态下的垃圾邮件过滤,验结果为在实规则集来做出决策。实验证明, p r方法用于垃圾邮件过滤,将Rip e 取得了很好的效果。 错纠率小于1%的限制下遗失率为2 3%, .6取得了较好的过滤效果。 222决采树 ( c inT e ) .. De io re s 下转第2 3 1页一

本文来源:https://www.bwwdw.com/article/uviq.html

Top