基于贝叶斯算法分类的反垃圾邮件系统的改进毕业论文
更新时间:2023-11-16 18:55:01 阅读量: 教育文库 文档下载
学位论文题目:基于贝叶斯算法分类的反垃圾邮件系统
的改进
长春工业大学硕士学位论文
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。
作者签名: 日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名: 日期: 年 月 日
导师签名: 日期: 年 月 日
I
长春工业大学硕士学位论文
摘 要
电子邮件成为一种快捷、经济的现代通信技术手段,极大地方便了人们的通信与交流。然而,垃圾邮件的产生,影响了正常的电子邮件通信,占用了传输带宽,对系统安全造成了严重的威胁。因此,研究反垃圾邮件问题已经成为全球性的具有重大现实意义的课题。
目前,应对垃圾邮件的主要方法和手段是通过反垃圾邮件立法和使用邮件过滤技术进行处理,现已相继出现了多种邮件过滤技术。常用的包括黑/白名单技术、基于内容的分析方法以及基于规则的方法等。基于内容分析的技术正逐步进入邮件过滤技术当中,并成为当前研究热点,其中,基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯算法的垃圾邮件过滤模型。
本论文对中文垃圾邮件的特点进行了比较系统的分析和研究,结合贝叶斯(Bayes)理论,构造基于贝叶斯分类的垃圾邮件过滤模型,在特征提取方面,采用互信息值的方法,在分类方法上,引入了适合本文的分类方法,并采用了一种更加适合于贝叶斯计算的表示方法;本文作者采用中国教育科研网(CERNET)收集并维护的大量中文垃圾邮件和正常邮件样本的标准数据集,对本文研究的方法进行了大量测试,准确率和误判率分别达到了 95.8%和 5.3%。结果表明基于贝叶斯算法的垃圾邮件过滤系统对拦截垃圾邮件有很好的作用。
关键词:电子邮件,垃圾邮件,邮件过滤,贝叶斯理论
II
长春工业大学硕士学位论文
Abstract
The e-mail has become a quick and economical means of modern communication technology, which enormously facilitates people's communication and exchanges. However, the emergence of spam has affected the normal email correspondence, and taken the transmission band width, even posed the serious threat to the system safety. Therefore, the study of anti-spam has become a global problem of great practical significance of the topic. At present, the main ways and means of the response to spam are the anti-spam legislation and the use of mail filtering technology. But now a variety of mail filtering technologies have appeared in succession, which are usually used including black / white list technologies, content-based analysis methods, and rule-based methods. Content-based analysis techniques are gradually entering the mail filtering technology which has become hot spots of current research. The typical method of content-based analysis mail filtering methods is based on Bayesian algorithm for spam filtering model.
In this paper, the Chinese characteristics of spam has been studied and analyzed systematically. Combining with Bayesian (Bayes) theory, this paper constructs the spam filtering model which is based on Bayesian classification. In feature extraction, mutual information values are used. In the classification method, a classification method is introduced which is suitable in this article, and a more suitable expression in the Bayesian calculation method is adopted; the standard sample data sets of a large number of Chinese spam and regular mail are collected and maintained by the Chinese Education and Research Net (CERNET). The author conducted a lot of testing towards the methods which are studied by this paper. The accuracy and misjudgment rate reached 95.8% and 5.3% respectively. The results show that the spam filtering system based on algorithm Bayesian plays a very good role to block spam.
Key Words: e-mail, spam, mail filtering, Bayesian theory
III
目 录
第一章 绪论 ................................................................................................................................................... 1 1.1引言 ......................................................................................................................................................... 1 1.2垃圾邮件的定义及其危害 .............................................................................................................. 1 1.2.1垃圾邮件的定义 ......................................................................................................................... 1 1.2.2垃圾邮件的危害 ......................................................................................................................... 2 1.3国内外反垃圾邮件现状 ................................................................................................................... 3 1.4论文研究的目标与内容 ................................................................................................................... 4 第二章 垃圾邮件技术 ................................................................................................................................. 5 2.1电子邮件工作原理简介 ................................................................................................................... 5 2.1.1电子邮件的概述 ......................................................................................................................... 5 2.1.2电子邮件的格式 ......................................................................................................................... 5 2.1.3邮件的传送过程 ......................................................................................................................... 6 2.1.4相关协议 ....................................................................................................................................... 8 2.2非技术手段反垃圾邮件 ................................................................................................................. 13 2.3常用反垃圾邮件技术 ...................................................................................................................... 13 2.3.1客户端反垃圾邮件过滤技术 ............................................................................................... 14 2.3.2服务器端反垃圾邮件过滤技术 .......................................................................................... 14 第三章 垃圾邮件分类向量与特征向量 ............................................................................................. 17 3.1垃圾邮件分类向量概述 ................................................................................................................. 17 3.2 垃圾邮件分类向量与特征向量的定义.................................................................................... 17 3.3 分类方法 ............................................................................................................................................. 18 3.3.1文本量的表示方法 .................................................................................................................. 18 3.3.2关键词的选取............................................................................................................................ 19 3.3.3特征提取 ..................................................................................................................................... 20 3.3.4分类方法介绍............................................................................................................................ 23 3.4基于垃圾邮件特征向量判断垃圾邮件算法的设计 ............................................................ 23 3.4.1贝叶斯定理 ................................................................................................................................. 23 3.4.2贝叶斯过滤器的工作原理 .................................................................................................... 23 3.4.3算法的描述 ................................................................................................................................. 25 第四章 基于标准邮件集构造垃圾邮件分类向量 .......................................................................... 26 4.1标准邮件集 ......................................................................................................................................... 26 4.1.1 标准邮件集的背景 ................................................................................................................. 26 4.1.2标准邮件和正常邮件的收集 ............................................................................................... 26 4.1.3标准邮件集的概述 .................................................................................................................. 27 4. 2基于标准邮件集的垃圾邮件分类向量 ................................................................................... 27
正在阅读:
我的遥控直升机作文450字07-13
遥控直升机入门06-15
行政管理学复习12-01
讣闻02-17
2006年春季初一语文测试105-28
行政管理学网上作业答案11-14
汽车内饰件业用胶项目可行性研究报告评审方案设计(2013年发改委06-14
购销存实训05-28
施工组织设计(7.1改)05-28
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 叶斯
- 邮件系统
- 毕业论文
- 算法
- 改进
- 基于
- 垃圾
- 分类
- 毕业设计论文 - - 水箱液位控制系统的设计 - 图文
- 福州市2017届高三毕业班地理适应性练习(十)—文科综合地理A卷(含答案) - 图文
- 健康管理师考试模拟试题(含答案)
- 四川广元三江新区发展战略规划 - 图文
- 2015年9月上海高级口译真题解析
- 19中-2015vb学习资料讲解
- 初三英语听课记录
- 2012四升五暑假试题
- kuaile
- 中国农业科学院科技创新工程实施方案
- 外研社 英语 八年级下M2 U1课文Ive also entered lots of speaking competitions.(中英文)
- 2015年陕西省路网运行分析报告白皮书 - 图文
- 砌体结构试题及答案(1)
- 中国现代文学史选择题大全
- 工程力学试卷
- 年度工作总结表彰会上的讲话
- 新人教版选修6高中英语Unit 5《First aid》单元综合测试
- 通信原理教程樊昌信版主要课后习题答案
- 人教版一下认读生字测试卷
- 用n=4的排列码技术对明文为4096个d低四位进行加密后的密文