基于R语言多种聚类算法演示平台 - 图文

更新时间:2023-10-24 12:01:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

本科毕业设计论文

题目:基于R语言的多种聚类算法演示平台开发

作者姓名 徐天宇 指导教师 陈晋音教授 专业班级 自动化1104 学 院 信息工程学院

提交日期 2015年5月28日

浙江工业大学本科毕业设计论文

基于R语言的多种聚类算法演示平台开发

作者姓名:徐天宇 指导教师:陈晋音副教授

浙江工业大学信息工程学院

2015年6月

Dissertation Submitted to Zhejiang University of Technology

for the Degree of Bachelor

Clustering Algorithms Demonstration Platform based

on Rstudio

Student: Tianyu Xu Advisor: Jinyin Chen

College of Information Engineering Zhejiang University of Technology

June 2015

浙 江 工 业 大 学

本科生毕业设计(论文、创作)任务书

专 业____自动化____ 班 级____1104____ 学生姓名/学号 徐天宇/201103120423__

一、设计(论文、创作)题目: 基于R语言的多种聚类算法演示平台 二、主要任务与目标: 基于R语言平台实现多种聚类算法,包括基于划分的聚类算法kmeans

等,基于密度的聚类算法DBSCAN等,并设计实现各种算法的演示平台,可视化界面调用各个测试数据集,完成聚类并利用图和表等形式演示聚类效果。

三、主要内容与基本要求:

主要内容:(1)分析现有聚类算法的分类及其代表算法,及其解决的关键问题分析;(2)基于R语言的各种聚类算法的实现和性能演示;(3)实验验证模型及粒子群优化算法的有效性。 基本要求:(1)分析现有聚类算法及其优缺点;(2)自主设计基于R语言的各种聚类算法实现和调试;(3)编写程序实现交互式演示平台,完成各种聚类算法的性能比较和演示;(4)仿真实验利用

UCI数据集验证平台对各个聚类算法的演示和效率评价。

四、计划进度:

(1)2014年12月至2015年2月:完成文献调研、综述撰写和2篇外文文献翻译;(2)2015年3月:基于R语言的聚类算法开发和设计;(3)2015年4月:编程实现前台可视化交互演示平台,并演示聚类算法的效率评价;(4)2015年5月:完成实验总结并撰写毕业论文,准备答辩。

五、主要参考文献:

[1]Zhu Qun, Zhang Yu-Hong, Hu Xue-Gang, Li Pei-Pei. A double-window-based classification algorithm for concept drifting data streams [J]. Acta Automatica Sinica, 2011, 37(9):1077-1084 [2]Hassani M, Spaus P, Gaber M M, Seidl T. Density-based projected clustering of data streams [J]. In: Proceeding of the 2012 Scalable Uncertainty management, Berlin Heidelberg, Springer, 2012 311-324. [3] Huang D C, Shen X Q, Lu Y H. Double k-nearest Neighbors of Heterogeneous Data Stream Clustering Algorithm [J]. Journal of Computer Science and Technology, 2013, 40(10):226-230. [4] Yang C Y, Zhou J. A heterogeneous data stream clustering algorithm [J]. Chinese J of Computers, 2007, 30(8):1364-1371. [5] Aggarwal C C, Yu P S. A framework for clustering massive text and categorical data streams [J]. In: Proceeding of the 6th SIAM International Conference on Data Mining. Bethesda, 2006: 477-481.

任务书下发日期 2014 年 12 月 26 日

设计(论文、创作)工作自 2015 年12月 26日 至 2015年 6 月 8 日

设计(论文、创作)指导教师

学科(方向)负责人

主管院长

基于R语言的多种聚类算法演示平台开发

摘 要

聚类分析是模式识别、数据挖掘、机器学习中的很重要的一类方法,它是将数据集按照某种指导思想划分成一些簇的过程。由于聚类问题的重要性,近50年提出了各种各样的算法,又因为聚类问题属于一个病态问题,聚类算法的效果和实际数据对象有很大的相关性,目前还没有一个算法可以很好的解决所有的聚类问题,不同的算法有各自不同的优缺点。为了新算法的开发需要,以及为了解决特定聚类问题的需要,开发一个包含多种聚类算法的可演示可扩展的平台将非常有价值,本文利用R语言实现了包含6个典型聚类算法和7个典型数据集的聚类算法演示平台,主要工作如下:

(1)为了类比不同类型的聚类算法性能,本文实现了基于划分的k-means、AP算法、基于密度的DBSCAN,和基于层次的AGNES、基于粒子群的聚类算法以及先进的FDP算法。

(2)利用Rstudio公司开发的shiny包实现交互式演示平台,实现良好用户交互性,并对以上6种典型聚类算法和7个典型数据集展开聚类演示,动态比较聚类过程,并分析性能优劣。

(3)基于实现的聚类算法和演示平台,本文实现了基于聚类分析的NBA篮球运动员类型分类和球队球员结构分类的应用,验证了所实现聚类算法的有效性。

关键词:聚类算法,演示平台, Rstudio, NBA球员聚类

I

本文来源:https://www.bwwdw.com/article/mtc2.html

Top