2014数据挖掘期末试题

更新时间:2023-11-17 21:37:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据挖掘 期末试题(2014学年)

一、(20分)假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:

5, 15, 25, 35, 45, 55, 60。

(a) 该数据的均值是______, 中位数是_____(4分) (b) 数据的中列数是______(2分)

(c) 第一个四分位数(Q1)是_____和第三个四分位数(Q3)是_____(4分) (d) 给出数据的五数概括:______________________(4分)

(e) 使用min-max规范化将age值35变换到[0.1,1.0]区间的值是:_____(2分) (f) 使用z-score规范化变换age值35的值是______(2分) (g) 使用小数定标规范化变换age值35的值是______(2分) 二、(20分)下面的相依表汇总了超级市场的事务数据,其中hot dogs表示包含热狗的事务,

~hot dogs 表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,~hamburgers表示不包含汉堡包的事务。

(a) 假定挖掘出了关联规则 “hot dogs=>humburgers”。给定最小支持度阈值60%,

最小置信度阈值50%,该关联规则是强规则吗?(10分)

(b) 根据给定的数据,买hot dogs独立于买humburgers?如果不是,二者之间存在

何种关联关系?(10分)

表 1 超级市场的事务数据相依表

三、(20分)假定BigUniverstiy的数据仓库包含如下4个维:student, course,semester和instructor;和2个度量:count和avg_grade。在最低的概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际课程成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。

(a) 列出三种流行的数据仓库建模模式。(6分)

(b) 由基本方体[student, course, semester, instructor]开始,为列出BigUniverstiy每个学生

的IS课程的平均成绩,应当执行哪些OLAP操作?(10分) (c) 如果每维在上述基本方体恰有q个不同值,则该数据立方体BigUniverstiy的单元的

最小个数是多少?(4分)

四、(20分)数据库有5个事务(如表 2)。设min_sup = 60% ,min_conf = 80%。 表 2

TID T100 T200 T300 T400 T500

购买的商品 { K, M, C , O, E, Y } { K, O, E } { M, K, N, Y, U } { O, Y, E, K, D, Y } { E, C, O, Y }

(a) 使用FP增长算法找出所有频繁项集。(14分)

(b) 列举所有与下面的元规则匹配的强关联规则(给出支持度s 和置信度 c),其中,X是

代表顾客的变量,itemi 是表示项的变量(如“A”,“B”等):(6分) ?x?transanc,tbiuoy(sX,ite1m)?buy(sX,item(sX,item2)?buy3)[s,c]

五、(20分)表3给出了一个类标记的元组的训练集D,随机地从AllElectronics顾客数据库中选取。

(a) 利用决策树算法画出决策树,预测元组X = (age = youth, income = high, student = yes,

credit_rating = excellent)的类标号?(10分) (b) 利用朴素贝叶斯分类算法,预测元组X = (age = senior, income = medium, student = no,

credit_rating = fair)的类标号?(10分)

本文来源:https://www.bwwdw.com/article/fkvv.html

Top