数据挖掘实验报告

更新时间：2023-10-05 05:38:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

《数据挖掘》 Weka实验报告

姓名＿学号＿指导教师开课学期 2015 至 2016 学年 2 学期完成日期 2015年6月12日

1.实验目的

基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+(Ori- ginal)的数据，使用数据挖掘中的分类算法，运用Weka平台的基本功能对数据集进行分类，对算法结果进行性能比较，画出性能比较图，另外针对不同数量的训练集进行对比实验，并画出性能比较图训练并测试。

2.实验环境

实验采用Weka平台，数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+(Original)，主要使用其中的Breast Cancer Wisc-

onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。

3.实验步骤

3.1数据预处理

本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类，该表含有Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size（均匀的细胞大小）， Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁）， Mitoses（有丝分裂），Class（分类），其中第二项到第十项取值均为1-10，分类中2代表良性，4代表恶性。通过实验，希望能找出患乳腺癌客户各指标的分布情况。

该数据的数据属性如下：

1. Sample code number（numeric），样本代码； 2. Clump Thickness（numeric），丛厚度；

3.Uniformity of Cell Size（numeric）均匀的细胞大小； 4. Uniformity of Cell Shape（numeric），均匀的细胞形状； 5.Marginal Adhesion（numeric），边际粘连；

6.Single Epithelial Cell Size（numeric），单一的上皮细胞大小； 7.Bare Nuclei（numeric），裸核；

8.Bland Chromatin（numeric），平淡的染色质； 9. Normal Nucleoli（numeric），正常的核仁； 10.Mitoses（numeric），有丝分裂； 11.Class（enum），分类。 3.2数据分析

由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+(Ori- ginal)得到一组由逗号隔开的数据，复制粘贴至excel表中，选择数据——分列——下一步——逗号——完成，该数据是有关乳腺癌数据集，有11个属性，分别为Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size（均匀的细胞大小），Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁）， Mitoses（有丝分裂），Class（分类），因为复制粘贴过来的数据没有属性，所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。

3.2.1 .csv -> .arff

将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。打开weka,之后出现GUI界面，如图1所示：

（图1）

点击进入“Exploer”模块，要将.csv 格式转换为 .arff格式，点击open file...,打开刚保存的“乳腺癌数据集.csv”,点击“Save...”,将文件保存为“乳腺癌数据集.csv.arff”如图2所示：

（图2）

图3中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情况.如图3所示：

（图3）

3.2.2 数据预处理

很明显发现，所用的数据都是（numeric）数值型的，需要将数值型离散化，将“Clump Thickness ”，“Uniformity of Cell Size ”，“Uniformity of Cell Shape”，“ Marginal Adhesion ”，“ Marginal Adhesion ”，“ Bare Nuclei ”，

“ Bland Chromatin ”，“Normal Nucleoli ”，“Mitoses”，“Class” 离散化。我们需要借助Weka中名为“Discretize”的Filter来完成。在区域2中点“Choose”，出现一棵“Filter树”，逐级找到“weka.filters.unsupervised.attribute .Discretize”点击，即可得到如下所示的图，如图4所示：

(图4)

现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。如图箭头所示，点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第1,2,3,4,5,6,7,8,9,10项离散化，其中第一项为id，可移除。把attributeIndices右边改成“1,2,3,4,5,6,7,8,9，10”。我们把这两个属性都分成10段，于是把“bins”改成“10”。其它不变。点“OK”回到“Explorer”，可以看到“Clump Thickness ”，“Uniformity of Cell Size ”，“Uniformity of Cell Shape”，“ Marginal Adhesion ”，“ Marginal Adhesion ”，“ Bare Nuclei ”，“ Bland Chromatin ”，“Normal Nucleoli ”，“Mitoses”，已经被离散化成分类型的属性。经移除后剩10项属性，其中一项如图5所示，10项属性可视化如图6所示：

本文来源：https://www.bwwdw.com/article/g38d.html

相关文章：

正在阅读：

暑期精品班 - 三角形 - 图文07-08

人教版九年级物理第二十章-第1节-磁现象磁场(拔高版)辅导教学案06-11

公交公司人力资源部部长竞聘演讲稿12-28

温暖的阳光作文600字07-01

上一篇：桑塔纳vist志俊轿车离合器设计说明书 - 图文下一篇：常微分方程的求解实验六