工程硕士《数据挖掘》考试试卷

更新时间:2023-11-08 22:34:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

《数据挖掘》考试试题

一、单项选择题(本大题共20小题,每小题1分,共20分)

在每小题列出的四个备选项中选择一项符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。

1.下列选项中哪个不属于在线事务处理(OLTP)业务是( ) A、在线分析处理(OLAP) B、决策支持(DS) C、数据挖掘(DM) D、数据采集

2.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?( )

A、探索性数据分析 B、建模描述 C、预测建模 D、寻找模式和规则 3.模式按实际应用分类时,下列哪个不包含在内() A、描述模式 B、关联模式 C、聚类模式 D、序列模式 4.下列那个不是聚类分析的常用方法()

A、特征聚类 B、CF树 C、决策树 D、随机搜索聚类法 5.高层数据模型应该哪种表示方法( )

A、E-R图 B、物理数据模型 C、逻辑数据模型 D、低层数据类型 6.下列哪个不是星形图的逻辑实体() A、指标 B、维度 C、详细类别 D、关系 7.下列哪个不是数据仓库系统的完善工作()

A、改正性维护 B、完善性维护 C、预防性维护 D、应用维护 8.以下两种描述分别对应哪两种对分类算法的评价标准? ( )

(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC 9.下列哪个不是包中包含的集合()

A、步骤集合 B、连接集合 C、局部变量集合 D、任务集合 10.下列哪个不属于构建数据仓库系统的阶段()

A、设想阶段 B、规划阶段 C、开发阶段 D、实施阶段 11.下列哪个不属于数据挖掘的过程()

A、评价阶段 B、巩固和运用阶段 C、挖掘阶段 D、维护阶段 12.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?( ) A、根据内容检索 B、建模描述 C、预测建模 D、寻找模式和规则

13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?( ) A、第一个 B、第二个 C、第三个 D、第四个 14.只有非零值才重要的二元属性被称作:( )

A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性 15.下面不属于创建新属性的相关方法的是: ( )

A特征提取 B特征修改 C映射数据到新的空间 D特征构造 16.数据仓库是随着时间变化的,下面的描述不正确的是 ( )

A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容;

D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.

17.下面关于数据粒度的描述不正确的是: ( ) A. 粒度是指数据仓库小数据单元的详细程度和级别; B. 数据越详细,粒度就越小,级别也就越高; C. 数据综合度越高,粒度也就越大,级别也就越高;

D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量. 18.数据挖掘算法以( )形式来组织数据. A 行 B列 C 记录 D 表格

19.企业成功实施数据挖掘, 需要以下( )知识或技术 A 预先的规划 B 对商业文体的理解 C综合商业知识和技能 D 都需要

20.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )

A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理

二、简答题 (本大题共4小题,每小题10分,共40 分) 21.解释说明概念分层与数据泛化。

答:数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进

行抽象概述的一个分析过程。

22.聚类分析方法是什么?

答: 聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。

23.面向属性归纳的基本算法的四个步骤

答: 首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的技术值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。

24.孤立点分析是什么?

答: 孤立点是指数据集中那些小模式数据,它可能是度量或执行错误所导致的, 也可能是

固有数据变异性的结果。Hawkins给出了其本质性定义: 孤立点是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差, 而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的; 二是找到一个有效的方法来挖掘这样的孤立点。

目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。

三、应用题(本大题共2小题,每小题20分,共40 分) 25.请问这个数据挖掘的那种方法?说明这个方法的特点

26.数据挖掘项目是一项系统工程,它作为从数据库中自动发现知识的过程,仍然需要来自不同领域专家共同参与知识发现的全部过程。请说

本文来源:https://www.bwwdw.com/article/a0yv.html

Top