决策树习题

更新时间:2024-05-31 21:06:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

习题

[1]商务智能产生的原因是什么? [2]怎么认识商务智能?

[3]商务智能对企业有什么价值?

[4]举例说明商务智能在保险、证券、银行、电信、制造、零售和物流等行业的应用。 [5]讨论商务智能与ERP、CRM和SCM等业务管理系统的关系。 [6]商务智能系统包括哪些部分?分别有什么功能?

[7]结合具体的商务智能项目,说明商务智能系统的组成。 [8]讨论数据集成对商务智能项目的重要性。

[9]阅读下面的案例,分析产生问题的原因并给出对策。 一位新上任的大型国企老总曾经表达过这样的困惑。当他向下属提出,希望查看近十年企业的生产和运营数据时,他手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前,即ERP上线之前的,这是一些简单、杂乱而又枯燥的数据。另一种是有了ERP以后的,数据变得清楚而有条理,但仍然有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。 在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和CRM、SCM系统中相差很大,如果引用ERP和CRM里面的数据,它就是一款很成功、销量很好的产品,但在SCM中,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。 更让他难以理解的是,正是由于这些来自不同系统的数据不够准确或不一致,给企业的前任领导提交了相当多顾此失彼的分析报告,导致了许多市场决策上的混乱和失误。在花费了大量时间和精力之后,这位国企老总困惑了:究竟哪些数据才是真实的?为什么对同一件事不同的系统会得到截然不同的结果? [10]讨论数据仓库与操作型数据库、数据集市的区别。

[11]如何认识数据仓库的几个特点?这些特点与企业管理决策有什么关系? [12]什么是元数据?元数据有什么用处?

[13]讨论ETL的过程,其中数据质量对这个过程有什么影响? [14]什么是操作数据存储(ODS)?为什么使用ODS? [15]数据仓库有哪些模型?举例说明。

[16]举例说明数据挖掘查询语言(DMQL)的应用。

[17]以销售主题为例,给出数据仓库的概念模型和逻辑模型,并用DB2或Microsoft SQL Server2000 Analysis Services(以上版本)实现。 [18]什么是在线分析处理(OLAP)?OLAP有哪些特点?

[19]OLAP和OLTP有什么区别?怎么理解OLAP是假设驱动型的分析方法? [20]OLAP有哪些操作?请结合实例,利用IBM DB2 OLAP Server或Microsoft SQL Server 2000 Analysis Services(以上版本)讨论。 [21]OLAP有哪几种类型?它们有什么区别? [22]结合实例,讨论OLAP操作语言的应用。 [23]数据挖掘是怎么产生的?

[24]数据挖掘有哪些步骤?以电信运营商的顾客细分为例,分析每一步骤关键的问题。 [25]作为一种数据挖掘方法和展示工具,举例说明可视化技术的应用。 [26]举例说明数据挖掘在银行、保险、电信、零售或政府管理中的应用。

[27]数据预处理在数据挖掘过程中有什么用处?常见的预处理方法有哪些?请举例说明。 [28]聚类算法的实质是什么?常用的几种聚类算法各适用什么场合?请举例说明某种聚类

算法的应用。

[29]分别取k=2和3,利用k-means聚类算法对以下的点聚类:(2,1),(1,2),(2,2),(3,2),(2,3),(3,3),(2,4),(3,5),(4,4),(5,3),并讨论k值以及初始聚类中心对聚类结果的影响。

[30]分类问题的实质是什么?有哪些常用的方法? [31]表1是购买汽车的顾客分类训练样本集。假设顾客的属性集家庭经济状况、信用级别和月收入之间条件独立,则对于某顾客(测试样本),已知其属性集X=<一般,优秀,12K>,利用朴素贝叶斯分类器计算这位顾客购买汽车的概率。

表1 购买汽车的顾客训练样本集

序号 1 2 3 4 5 6 7 8 9 10 家庭经济状况 一般 好 一般 一般 一般 一般 好 一般 一般 好 信用级别 优秀 优秀 优秀 良好 良好 优秀 一般 一般 良好 良好 月收入 10K 12K 6K 8.5K 9K 7.5K 22K 9.5K 7K 12.5K 购买汽车 是 是 是 否 否 是 是 否 是 是

[32]决策树算法的实质是什么?以机器学习数据库中splice数据集为例,回答下面问题:

(1)分别计算信息增益和gini指数,哪个属性选择为决策树根结点的分枝属性? (2)使用ID3算法构造决策树。

注:splice数据集下载地址:http://archive.ics.uci.edu/ml/datasets/ [33]连续属性如何离散化?请用ID3算法或C4.5算法举例说明。 [34]决策树算法的过拟合问题如何解决?

[35]结合实例,应用CART、C4.5算法挖掘决策树,并与ID3算法比较结果。 [36]支持向量机的基本思想是什么?请举例说明支持向量机的应用。 [37]讨论BP神经网络处理分类问题的原理,并举例说明此网络的应用。

[38]考虑表2中的一维数据集,分别根据1最近邻、3最近邻、5最近邻和8最近邻,使用多数表决投票对数据点5.0分类,讨论k最近邻分类中k的取值对分类结果的影响(表中“+”和 “-”表示类别)。

表2 k最近邻分类数据集 数据点 0.6 类别 - 3.1 - 4.4 + 4.6 + 4.7 + 4.9 - 5.3 - 5.6 + 7.2 - 9.8 -

[39]关联规则挖掘的基本思想是什么? [40]对于表3所示的数据集,假设最小支持数和最小臵信度分别为2和65%,考虑下面问题:

(1)画出该数据集的项集格,判断每个结点是否为频繁项集。

(2)分别把Apriori算法和FP增长算法挖掘表中数据集,提取所有的强关联规则。

表3 购物篮事务

事务 1 2 3 4 5 6 7 8 9 10 购买商品 {牛奶,啤酒,尿布} {面包,黄油,牛奶} {牛奶,尿布,饼干} {面包,黄油,饼干} {啤酒,饼干,尿布} {牛奶,尿布,面包,黄油} {面包,黄油,尿布} {啤酒,尿布} {牛奶,尿布,面包,黄油} {啤酒,饼干} [41]序列分析与关联规则挖掘有什么关系?请举例讨论。

[42]结合实际序列数据库,假设最小支持度为20%,利用类Apriori算法提取所有的序列模式。

[43]时间序列分析与序列分析有什么关系?

[44]表4是某商品多次价格变动与销售量的数据,请利用回归分析求出价格x与销售量y的关系(提示:x与y的关系大致为抛物线,先变换为线性回归问题再求解)。

表4 价格变动与销售量的数据 价格x 销售量y 1.2 4.5 1.8 5.9 3.1 7.0 4.9 7.8 5.7 7.2 7.1 6.8 8.6 4.5 9.8 2.7

[45]说明哪些数据挖掘算法之间可以组合使用,并举例说明。 [46]数据挖掘对电子商务有什么影响?

[47]举例说明数据挖掘在电子商务中有哪些方面的应用。 [48]总结数据挖掘在市场营销和顾客关系管理中的应用,并举例说明。可以从寻找潜在顾客,寻找正确的广告渠道,定向市场营销活动,了解潜在顾客以及顾客保持和流失等方面讨论。 [49]请分析商务智能技术在某些领域的具体应用:收集实际数据集,对数据进行预处理后,进行分类、聚类、关联、序列、回归分析等分析,并讨论分析结果的业务价值。 [50]以某一具体的数据挖掘项目为背景,讨论数据挖掘各个阶段的工作。

[51]请结合下图,分析一个完整的企业商务智能项目可以包含哪些内容?分别解决什么问题?其中的关键问题分别是什么?

数据获取 数据源 数据迁移 元数据管理(业务元数据、技术元数据等) 数据管理 ETL 数据清洗 数据分析 业务模型 数据集市管理 安全性、 分析管理 数据展现 数据展现 最终用户 数据存储管理 数据仓库 元数据管理 销售系统 生产系统 数据抽取、迁移、加载 ETL 解决方案 ETL据 据质量控重新组数数数据仓库 日常 数据增加 周 数据加载 日 周期 企业数模型 RDDW MDDB 报表 Intranet/ Internet 决策人员 随即查询 即席查询 管理人员 产品报告 分析人员 采购系统 EII 解决方案 数数企业信息集据) 据EII成(质量控重新组例外分析 实时 增量 财务系统 虚拟 ODS 数据仓库 数据挖掘 解决的业务问题 OLAP分析 数据挖掘 业务人员 访问工具 投资组合分析 投资组合分/K PI平衡计分卡 平衡记分卡利润成本分析利润成本分 资产分析 营销分析 [52]分别下面案例,说明商务智能如何帮助解决某大型电器零售企业的问题。

杰佛瑞是某大型电器零售企业的市场部门的一名经理,主要负责公司的促销方案的设计。杰佛瑞两年前跳槽来到这家企业,担任总部市场经理,这家企业在家电零售业界享有盛名,在全国拥有近300多家连锁店,规模经营使得公司销售业绩连年提高,而企业的信息化工作也是业界所称道的,这些都让杰佛瑞觉得非常满意,工作也十分积极。

家电零售业竞争非常激烈,各大零售商正在通过各种途径全方位提升自身的竞争力。杰佛瑞供职的公司也不例外,不惜巨资投入信息化建设,实现了基于ATM专网的采购、仓储、销售、财务、物流、配送、售后服务、顾客关系一体化实时在线管理。尽管公司连锁店分布在全国各地,但公司的系统可以全面地收集各个连锁店的经营数据、管理数据以及供应商、顾客和外部竞争环境数据,建立完整的企业级数据仓库系统。在此基础上,公司采用国际上先进的零售业数据分析体系,在数据仓库系统和在线分析系统的基础上,建立复杂的数学模型,发现隐藏在海量数据中的未知模式,预测市场的变化趋势,通过多维分析模型、商品生命周期分析模型等分析手段,综合运用数据仓库、在线分析处理、数据挖掘、定量分析模型、企业信息门户等技术,提供针对家电零售业运营所必需的业务分析决策模型,挖掘数据的潜在价值。在品类管理、库存管理、供应商管理、促销管理等方面,形成独特的优势。

作为市场部的一名职员,杰佛瑞并不十分了解信息事业部的工作,但是他很清楚数据部门起了非常重要的辅助作用。在刚来到公司的三个月培训期中,杰佛瑞学到的知识就是如何进入公司的知识管理系统平台,如何寻找需要的文件和信息。公司主张共享的文化让他觉得很有归属感。

杰佛瑞来到办公室,打开电脑,首先他接收到了上司里奇的邮件,里奇要求他尽快提出企业下个季度的促销方案。这是一项非常复杂的工作,杰佛瑞需要非常认真地对待,因为这关系到他的业绩考核以及可能的升迁机会。像往常一样,杰佛瑞搜索了公司系统的资料库,在这里他可以看到公司过去几年中的一些计划书以及反馈信息,这对他的工作非常有帮助。尤其是来自数据部门的反馈信息让他了解到促销计划的作用,有效地帮助提高促销计划质量。杰佛瑞很好奇数据部门的同事是如何做到这一点的,要知道公司可有几百家门店,每天来自POS机的销售数据可以堆积如山。他隐约记得,数据部门的同事曾在培训中提到过商务

智能、数据挖掘这样的字眼,但是他更喜欢称之为魔法师的工作。

杰佛瑞突然想起了上个月里奇转发给他的一份数据统计报告。报告显示,数据部门发现的一个重大信息,即冰箱和榨汁机之间存在着关联关系。杰佛瑞多少有些吃惊,因为这两个电器并不能让他在意识上感觉到有什么关联,但是这个信息对他的工作却有着很大的影响,因为在这一季的促销计划,他想到一个好主意,那就是购买BOSCH冰箱可以送一台榨汁机,他希望数据部门的报告是科学可信的,因为下一季度就是秋季,冰箱的销售在往年的报告中会有一个大的下降,他希望借助“买一送一”的促销可以使冰箱免于降价,而且也可以缓解榨汁机库存积压的问题。如果促销方案可以通过,珍妮可是要对他感激涕零,因为珍妮是库存部门的主管,昨天在内部网上,她向杰佛瑞抱怨过采购部门在榨汁机的问题上给她带来了不小的麻烦。关于促销时间的长短,杰佛瑞需要和威尔谈一下,威尔尽管调离了市场部,但是他的经验却很丰富,通过公司的系统,杰佛瑞给威尔发去了计划和问题,下午他得到了想要的答案。

杰佛瑞很快制订好了促销方案发给上司,这个方案在通过后很快上传到系统资料库中,并且分发给各个连锁店,而销售部门也会因为这个促销而忙活一阵子,因为他们需要负责把信息发送给相关的顾客。杰佛瑞听说,数据部门经过对整个公司数据库系统的分析,可以找出对促销活动最有可能做出反应的顾客群,甚至可以在促销季结束之前预测出销售量。这些是别人的工作,杰佛瑞虽然好奇但是不想费脑筋了。

杰佛瑞想到以前工作的公司,尽管待遇并不差,但每天的工作都是单打独斗,同样的错误会因为沟通的不及时而时常发生。而现在就不一样了,每一个员工可以很方便地知道别人做过的事情,而且也可以及时得到别人的帮助。此外,数据部门的魔法师们也常常给他们提供有利的情报,让他们的工作变得轻松而有效。

本文来源:https://www.bwwdw.com/article/jis6.html

Top