数据挖掘实验报告
更新时间:2023-10-05 05:38:01 阅读量: 综合文库 文档下载
《数据挖掘》 Weka实验报告
姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日
1.实验目的
基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+(Ori- ginal)的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。
2.实验环境
实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+(Original),主要使用其中的Breast Cancer Wisc-
onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。
3.实验步骤
3.1数据预处理
本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。
该数据的数据属性如下:
1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;
1
3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连;
6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核;
8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析
由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+(Ori- ginal)得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。
3.2.1 .csv -> .arff
将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示:
2
(图1)
点击进入“Exploer”模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的“乳腺癌数据集.csv”,点击“Save...”,将文件保存为“乳腺癌数据集.csv.arff”如图2所示:
(图2)
图3中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情况.如图3所示:
(图3)
3.2.2 数据预处理
很明显发现,所用的数据都是(numeric)数值型的,需要将数值型离散化,将“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,
3
“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”,“Class” 离散化。我们需要借助Weka中名为“Discretize”的Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到“weka.filters.unsupervised.attribute .Discretize”点击,即可得到如下所示的图,如图4所示:
(图4)
现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 如图箭头所示,点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第1,2,3,4,5,6,7,8,9,10项离散化,其中第一项为id,可移除。把attributeIndices右边改成“1,2,3,4,5,6,7,8,9,10”。我们把这两个属性都分成10段,于是把“bins”改成“10”。其它不变。点“OK”回到“Explorer”,可以看到“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”, 已经被离散化成分类型的属性。经移除后剩10项属性,其中一项如图5所示,10项属性可视化如图6所示:
4
正在阅读:
数据挖掘实验报告10-05
工厂车间主任年度工作总结范文03-03
高速铁路接触网零件图11-16
高中常见的强电解质和弱电解质05-08
人美版四年级上册美术教案07-24
日语教学文化导入必要性论文06-12
暑期精品班 - 三角形 - 图文07-08
人教版九年级物理第二十章-第1节-磁现象 磁场(拔高版)辅导教学案06-11
公交公司人力资源部部长竞聘演讲稿12-28
温暖的阳光作文600字07-01
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 数据挖掘
- 实验
- 报告