数据挖掘导论

更新时间:2023-11-12 06:12:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1.1 OLAP和多维数据分析 本节考察来自将数据集看作多维数组的技术和见解。大量数据库系统支持这种观点,特别是联机分析处理(OLAP)系统。事实上,OLAP系统的一些术语和能力已经使它进入被数百万人使用的电子数据表程序。OLAP系统还非常关注交互式数据分析,并提供可视化数据和产生汇总统计的广泛能力。由于这些原因,我们的多维数据分析方法将基于OLAP系统常见的术语和概念。 1.1.1 用多维数组表示鸢尾花数据 大部分数据集都可以用表来表示,其中每一行是一个对象,每一列是一个属性。在许多情况下,也可以将数据看作多维数组。我们通过将鸢尾花数据集表示成多维数组来解释这种方法。 表3-7是通过如下方法创建的:离散化花瓣长度和花瓣宽度属性,使它们取值低、中和高,然后统计鸢尾花数据集中具有特定的花瓣宽度、花瓣长度和种类的花的数量。(对于花瓣宽度,类别低、中和高分别对应于区间[0, 0.75), [0.75, 1.75)和[1.75, ¥);对于花瓣长度,类别低、中和高分别对应于区间[0, 2.5), [2.5, 5)和[5, ¥)。)表中没有显示空组合——一种花也不包含的组合。 表3-7 具有花瓣宽度、花瓣长度和种类特定组合的花的数量 花瓣长度 花瓣宽度 低 低 中 中 中 中 高 高 高 高 低 中 低 中 高 高 中 中 高 高 种类 Setosa Setosa Setosa Versicolour Versicolour Virginica Versicolour Virginica Versicolour Virginica 计数 46 2 2 43 3 3 2 3 2 44 该数据可以组织成多维数组,如图3-30所示,其中,三个维分别对应于花瓣宽度、花瓣长度和种类。为清晰起见,显示了该数组的三个二维表切片,每个对应于一个种类——见表3-8、表3-9和表3-10。表3-7和图3-30包含的信息是相同的,只是,在图3-30(以及表3-8、表3-9和表3-10)显示的多维表示中,属性花瓣宽度、花瓣长度和种类的值是数组下标。

重要的是从多维的观点观察数据可以获得深入透彻的了解。表3-8、表3-9和表3-10显示,每个鸢尾花种类由花瓣宽度和花瓣长度值的不同组合来刻画,Setosa花具有较低的宽度和长度,Versicolour花具有中等的宽度和长度,而Virginica花具有较高的宽度和长度。

图3-30 鸢尾花数据集的多维数组表示

1.1.2 多维数据:一般情况

前一节给出了一个具体的例子,使用多维方法表示和分析一个熟悉的数据集。这里,详细介绍一般的方法。

开始通常是数据的表表示(如表3-7),这种表称作事实表(fact table)。用多维数组表示数据需要两个步骤:维的识别和分析所关注的属性的识别。维是分类属性,或者如前面的例子所示,是转换成分类属性的连续属性。属性值充当对应于该属性的维的数组下标,而属性值的个数是维的大小。在前面的例子中,每个属性有三个可能的值,因此每个维的大小都是3,并且可以通过3个值索引。这产生了3 ′ 3 ′ 3的多维数组。

属性值的每个组合(每个不同的属性一个值)定义了多维数组的一个单元。使用前面的例子解释,如果花瓣长度 = 低,花瓣宽度 = 中,而种类 = Setosa,则标识了一个值为2的特定单元。即,数据集中只有两种花具有指定的属性值。注意,表3-7中数据集的每一行(对象)对应于多维数组的一个单元。

每个单元的内容代表一个我们在分析时感兴趣的目标量(target quantity)(目标变量或属性)的值。在鸢尾花例子中,目标量是其花瓣宽度和长度落入特定范围内的花的个数。目标属性是定量的,因为多维数据分析的关键目标是观察聚集量,如总和或平均值。

下面总结从表形式表示的数据集创建多维数据表示的过程:首先确定用作维的分类属性以及用作分析目标的定量属性,然后将表的每一行(对象)映射到多维数组的一个单元,单元的下标由被选作维的属性的值指定,而单元的值是目标属性的值,假定没有被数据定义的单元的值为0。

例3.23 为了进一步解释刚刚讨论的概念,我们给出一个涉及销售的更传统的例子。这个例子的事实表由表3-11给出,多维表示的维是产品ID、地点和日期属性,而目标属性是收入。图3-31显示了该数据集的多维表示,这个较大、更

复杂的数据集将用来解释多维数据分析的其他概念。 表3-11 不同地点和时间的产品销售收入(单位:美元) 产品ID 1 1 1 27 27 27 地点 Minneapolis Chicago Paris Minneapolis Chicago Paris 日期 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 Oct. 18 2004 收入 $250 $79 301 $2 321 $3 278 $1 325

图3-31 销售数据的多维表示

1.1.3 分析多维数据

本节介绍不同的多维分析技术。特别地,讨论数据立方体的创建和相关操作,如切片、切块、维归约、上卷和下钻。 1. 数据立方体:计算聚集量 从多维角度看待数据的主要动机就是需要以多种方式聚集数据。在产品销售的例子中,我们可能希望找出特定年份、特定产品的总销售收入,或者希望得到每一地点所有产品的年销售收入。计算聚集总和涉及固定某些属性(维)的值,在其余属性(维)的所有可能的值上求和。还有其他感兴趣的聚集量,但是为了简单起见,我们只讨论求和。 表3-12显示对于日期和产品的各种组合,在所有地点上求和的结果。为简单起见,假定所有的日期在一年之内。如果一年有365天,并且有1000种产品,则表3-12有365 000个表项(总和),每个产品-日期对一个。也可以指定商店位置和日期,在产品上求和,或者指定地点和产品,在所有的日期上求和。 表3-13显示表3-12的边缘总和(marginal total)。这些总和是进一步在日期或产品上求和的结果。在表3-13中,产品1的总销售收入是$370 000,通过在第一行上(在所有日期上)求和得到。2004年1月1日的总销售收入是$527 362,通过在第一列上(在所有产品上)求和得到。总销售收入是$227 352 127,通过在所有行和所有的列(所有的时间和产品)上求和得到。所有这些总和都针对所有地点来的,因为表3-13的表项包括所有的地点。 表3-12 对于固定的时间和产品,在所有地点上求和产生的总和 日期 2004.1.1 2004.1.2 ? 2004.12.31 $1 001 $987 ? $10 265 $10 225 ? $891 $9 325 产 1 品 27 ID 表3-13 包括边缘总和的表3-12

本文来源:https://www.bwwdw.com/article/u2nv.html

Top