数据挖掘期末复习提纲(整理版)
更新时间:2023-11-02 13:59:01 阅读量: 综合文库 文档下载
- 数据挖掘期末论文推荐度:
- 相关推荐
1. 熟悉数据挖掘的流程:
提示:1)业务理解 2)数据理解 3)数据准备 4)建立模型 5)模型评估 6)模型发布
2. 数据库系统与数据仓库系统的区别:
数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。 具体表述如下: 项目 数据类型 数据组织方式 试图机制 系统开发方法 面向应用 工具 功能 优化 索引 数据库系统 操作型数据 面向应用 虚表存储,只存视图结构 需求驱动 面向OLTP 数据仓库系统 分析型数据 面型主题 实试图存储 数据驱动 面向OLAP 分析和一般查询 简单 系统决策和分析 完整结构 数据查询、开发 复杂 事务处理和访问 有限数量 自由空间 更新开销 更新操作 需要附加数量空间 大 增、删、改频繁 无 无 少 3. 数据聚合需考虑的问题;
4. 利用免费商品做促销的关联规则挖掘问题:
1)找到免费商品的频繁1—项集,记为S1。
2)使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。这是
一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能节省一些不必要的计算开销。如果我们有一个频繁项价格至少¥200,则没必要对这个频繁项的任何超集进行测试。这是因为任何其他商品加到这个频繁项里,价格肯定会增多。需要检验的是超集是否是频繁的。这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。这样导致了将不能够发现满足约束条件的频繁项集。FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在一个树结构中。
3)从S1S2中找到频繁项集。
4)生成满足最小置信度且形如S1?S2的规则。 5. 分布式数据的关联规则挖掘方法:
第一. 在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集
的并集;
第二. 计算CF中每个频繁项集在各个站点的支持度计数;
第三.
第四.
6. 急切分类、惰性分类的优缺点:
急切分类比惰性分类在速度上要更快。因为它在接受新的待测数据之前已经构造了一个概括的模型。能够给一些属性指定一些权重,因为能提高精度。急切分类的缺点是它必须针对整个样本空间作出一个单一的假设,这可能削弱分类性能,并且需要更多的时间去训练。
惰性分类使用更广泛的函数空间,这能够提高分类精度。相对于急切分类,它需要更少的时间用于训练。缺点是惰性分类必须把所有的训练样本都保存下来,这可能引入了昂贵的存储代价并且要求有效的索引技术。另外一个缺点是在分类时更慢,因为分类器在待测样本来之前并没有构造出来。而且,所有属性都是具有一样的权值,这可能导致降低分类性能。
7. 熟悉贝叶斯分类方法的计算;
8. 聚类分析及聚类分析的常用算法; 9. 数据预处理中的规范化方法; 10. 关联规则挖掘的常用算法及计算
11. 挖掘海量数据的挑战: 第一个挑战是数据挖掘的性能问题,也就是说数据挖掘算法的有效性和可伸缩性。在一定精度的要求下,在可接受的运行时间内,为了有效的从大量数据里提取信息,数据挖掘算法必须是有效的和可伸缩的。第二个挑战是数据挖掘算法的并行性,分布式和增量处理过程。由于数据可能有很多数据库组成,这些数据库分布在不同的区域,而且有些数据挖掘算法本身比较复杂,这些都需要数据挖掘算法具有并行性和分布式计算功能。由于针对大规模数据的数据挖掘代价昂贵,因此当新的数据加入时,数据挖掘算法需要能够只对更新的数据进行处理,而不需要对整个数据集重新挖掘一次。
12. k均值与k中心点的优缺点比较:划分和层次的比较: K中心点算法比k均值算法在面临噪音数据和离群点数据时更具鲁棒性,因为中心点相对均值来说,更少受到群点或者其他极端值的影响。然而,k衷心点聚类的预处理过程比K均值代价更高。 K中心点和k均值都是基于划分的角力,基于划分的聚类的一个优缺点是,他们能够撤销之前的聚类过程,不像基于层次的聚类方法,一旦分类或者聚合执行了,就不能调整。这项缺点可能引起层次聚类的结果质量。基于划分的聚类方法在寻找椭圆形聚类模式时具有更好的效能,在针对中等以下规模的数据集进行聚类时,聚类效果较好。划分聚类的一个缺点是聚类之前需要知道类别的数目;而层次聚类能够自动决定类别的数目。然而,层次聚类在伸缩性方面有困难。因为每一次聚合或者分裂都要求对很多样本或者类别进行评估和检查。层次聚类方法能够与其他聚类方法相结合来提高聚类性能。 13. 简述决策树分类的主要步骤
计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集为频繁项集;
从全局频繁项集里导出强规则。
14. 简单地描述如何计算由如下类型的变量描述的对象间的相异度; 1)数值(区间标度)变量 2)不对称的二元变量 3)分类变量 4)比例标度型(radio---scaled)变量 5)序数变量
15. 给定K和描述每个样本的属性数n,写一个k---最近邻分类算法。
16. 定义下列数据挖掘功能,特征、区分、关联、分类、预测、聚类、演变分析。使用你熟悉的生活中的数据库,给出每种数据挖掘功能的例子。
17. 为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。
正在阅读:
数据挖掘期末复习提纲(整理版)11-02
我看书我快乐作文600字07-08
幼儿园患儿体弱儿的管理制度05-03
可爱的小猫作文200字07-07
1999_HiMCM_Outstanding_Papers06-04
我运动我快乐作文1000字06-27
感动的那一瞬间作文800字06-29
包装纸箱数码印刷市场及其创新应用05-04
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 数据挖掘
- 提纲
- 期末
- 复习
- 整理
- 北师大网络教育2016年秋季高起专0022《普通心理学》在线作业答案
- 楷书结构口诀
- 三年级语文导学案
- 开题报告穆斯林的葬礼
- 2013学年第二学期通用技术期中考试卷修改后
- 各级兽医实验室建设标准
- 勐海茶厂(大益茶品资料)1994年-2007年
- 工厂化育苗设施与主要设备 - 图文
- 人教版小学语文二年级下册第五单元导学案设计 - 图文
- 安徽省计算机等级二级考试真题C语言
- 2012年福建省福州市小学数学毕业试卷含参考答案
- 上海徐汇区2018-2019学年第一学期学习能力诊断卷初三数学试卷(中考一模)含答案
- 北师大版四年级上册书法练习指导-教案
- 高炉标准操作化条例
- 四字词语
- 离散系统的Z域分析
- 项目经理(施工员)工作流程及管理要求
- HSE管理计划编制规定
- 萘法苯酐工艺简介
- 第三单元近代西方资本主义政治制度的确立与发展