数据挖掘导论
更新时间:2023-11-12 06:12:01 阅读量: 教育文库 文档下载
1.1 OLAP和多维数据分析 本节考察来自将数据集看作多维数组的技术和见解。大量数据库系统支持这种观点,特别是联机分析处理(OLAP)系统。事实上,OLAP系统的一些术语和能力已经使它进入被数百万人使用的电子数据表程序。OLAP系统还非常关注交互式数据分析,并提供可视化数据和产生汇总统计的广泛能力。由于这些原因,我们的多维数据分析方法将基于OLAP系统常见的术语和概念。 1.1.1 用多维数组表示鸢尾花数据 大部分数据集都可以用表来表示,其中每一行是一个对象,每一列是一个属性。在许多情况下,也可以将数据看作多维数组。我们通过将鸢尾花数据集表示成多维数组来解释这种方法。 表3-7是通过如下方法创建的:离散化花瓣长度和花瓣宽度属性,使它们取值低、中和高,然后统计鸢尾花数据集中具有特定的花瓣宽度、花瓣长度和种类的花的数量。(对于花瓣宽度,类别低、中和高分别对应于区间[0, 0.75), [0.75, 1.75)和[1.75, ¥);对于花瓣长度,类别低、中和高分别对应于区间[0, 2.5), [2.5, 5)和[5, ¥)。)表中没有显示空组合——一种花也不包含的组合。 表3-7 具有花瓣宽度、花瓣长度和种类特定组合的花的数量 花瓣长度 花瓣宽度 低 低 中 中 中 中 高 高 高 高 低 中 低 中 高 高 中 中 高 高 种类 Setosa Setosa Setosa Versicolour Versicolour Virginica Versicolour Virginica Versicolour Virginica 计数 46 2 2 43 3 3 2 3 2 44 该数据可以组织成多维数组,如图3-30所示,其中,三个维分别对应于花瓣宽度、花瓣长度和种类。为清晰起见,显示了该数组的三个二维表切片,每个对应于一个种类——见表3-8、表3-9和表3-10。表3-7和图3-30包含的信息是相同的,只是,在图3-30(以及表3-8、表3-9和表3-10)显示的多维表示中,属性花瓣宽度、花瓣长度和种类的值是数组下标。
重要的是从多维的观点观察数据可以获得深入透彻的了解。表3-8、表3-9和表3-10显示,每个鸢尾花种类由花瓣宽度和花瓣长度值的不同组合来刻画,Setosa花具有较低的宽度和长度,Versicolour花具有中等的宽度和长度,而Virginica花具有较高的宽度和长度。
图3-30 鸢尾花数据集的多维数组表示
1.1.2 多维数据:一般情况
前一节给出了一个具体的例子,使用多维方法表示和分析一个熟悉的数据集。这里,详细介绍一般的方法。
开始通常是数据的表表示(如表3-7),这种表称作事实表(fact table)。用多维数组表示数据需要两个步骤:维的识别和分析所关注的属性的识别。维是分类属性,或者如前面的例子所示,是转换成分类属性的连续属性。属性值充当对应于该属性的维的数组下标,而属性值的个数是维的大小。在前面的例子中,每个属性有三个可能的值,因此每个维的大小都是3,并且可以通过3个值索引。这产生了3 ′ 3 ′ 3的多维数组。
属性值的每个组合(每个不同的属性一个值)定义了多维数组的一个单元。使用前面的例子解释,如果花瓣长度 = 低,花瓣宽度 = 中,而种类 = Setosa,则标识了一个值为2的特定单元。即,数据集中只有两种花具有指定的属性值。注意,表3-7中数据集的每一行(对象)对应于多维数组的一个单元。
每个单元的内容代表一个我们在分析时感兴趣的目标量(target quantity)(目标变量或属性)的值。在鸢尾花例子中,目标量是其花瓣宽度和长度落入特定范围内的花的个数。目标属性是定量的,因为多维数据分析的关键目标是观察聚集量,如总和或平均值。
下面总结从表形式表示的数据集创建多维数据表示的过程:首先确定用作维的分类属性以及用作分析目标的定量属性,然后将表的每一行(对象)映射到多维数组的一个单元,单元的下标由被选作维的属性的值指定,而单元的值是目标属性的值,假定没有被数据定义的单元的值为0。
例3.23 为了进一步解释刚刚讨论的概念,我们给出一个涉及销售的更传统的例子。这个例子的事实表由表3-11给出,多维表示的维是产品ID、地点和日期属性,而目标属性是收入。图3-31显示了该数据集的多维表示,这个较大、更
复杂的数据集将用来解释多维数据分析的其他概念。 表3-11 不同地点和时间的产品销售收入(单位:美元) 产品ID 1 1 1 27 27 27 地点 Minneapolis Chicago Paris Minneapolis Chicago Paris 日期 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 收入 $250 $79 301 $2 321 $3 278 $1 325
图3-31 销售数据的多维表示
1.1.3 分析多维数据
本节介绍不同的多维分析技术。特别地,讨论数据立方体的创建和相关操作,如切片、切块、维归约、上卷和下钻。 1. 数据立方体:计算聚集量 从多维角度看待数据的主要动机就是需要以多种方式聚集数据。在产品销售的例子中,我们可能希望找出特定年份、特定产品的总销售收入,或者希望得到每一地点所有产品的年销售收入。计算聚集总和涉及固定某些属性(维)的值,在其余属性(维)的所有可能的值上求和。还有其他感兴趣的聚集量,但是为了简单起见,我们只讨论求和。 表3-12显示对于日期和产品的各种组合,在所有地点上求和的结果。为简单起见,假定所有的日期在一年之内。如果一年有365天,并且有1000种产品,则表3-12有365 000个表项(总和),每个产品-日期对一个。也可以指定商店位置和日期,在产品上求和,或者指定地点和产品,在所有的日期上求和。 表3-13显示表3-12的边缘总和(marginal total)。这些总和是进一步在日期或产品上求和的结果。在表3-13中,产品1的总销售收入是$370 000,通过在第一行上(在所有日期上)求和得到。2004年1月1日的总销售收入是$527 362,通过在第一列上(在所有产品上)求和得到。总销售收入是$227 352 127,通过在所有行和所有的列(所有的时间和产品)上求和得到。所有这些总和都针对所有地点来的,因为表3-13的表项包括所有的地点。 表3-12 对于固定的时间和产品,在所有地点上求和产生的总和 日期 2004.1.1 2004.1.2 ? 2004.12.31 $1 001 $987 ? $10 265 $10 225 ? $891 $9 325 产 1 品 27 ID 表3-13 包括边缘总和的表3-12
正在阅读:
数据挖掘导论11-12
新-杂物电梯定检自检报告 - 图文01-06
珍惜亲情作文600字07-13
我生活在唠叨之中作文500字06-21
有效教学经验交流材料03-08
2019年高考地理热点题型和提分秘籍专题06 光照图的判读与晨昏线应用(题型专练) 含解析10-04
七下道法知识点汇总(精编版)04-03
中国特色建筑风格景观设计论文04-22
改工字钢悬挑脚手架施工方案05-15
实战技巧-换手率看股价涨跌07-19
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 数据挖掘
- 导论
- 会展策划师判断选择题
- 2017中国古代史课后答案
- 技术经济学
- 国电和风风电开发有限公司风电场设计服务招标评标报告新
- 地理教材分析
- 通州区2017-2018学年第一学期九年级期中学业水平质量检测数学试卷(含答案)
- 边坡支护监理实施细则
- 国家规划矿区划分及开拓方式
- 国内外资产证券化运作模式及对我国发展资产证券化的思考
- 新城市主义及精明增长之解读 - 唐相龙
- 疾控中心疫苗质量工作自查报告
- 小学生作息时间表 - 图文
- 四年级语文暑假作业
- 沉井、顶管方案
- 四川省乐山外国语学校2010年八年级寒假作业物理试卷(无答案)
- 2013级《组织行为学》(4)
- 厨房卫生间吊顶的选择
- 2011仪表专业技师职称评定试卷201~300
- 试论内河运输发展与船舶轮机管理的重要性
- 速效救心丸联合曲美他嗪治疗冠心病心绞痛的临床研究