商务智能与决策支持系统05-DW

更新时间:2023-08-14 09:47:01 阅读量: 人文社科 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

商务智能与决策

第2章 数据仓库的基本原理2.1 数据仓库的体系结构2.1.1 数据仓库的体系结构 2.1.2 数据仓库中的关键名词

2.4 操作数据存储ODS2.4.1 ODS的概念 2.4.2 ODS的应用 2.4.3 DB—ODS—DW的3层体系结 构 2.4.4 ODS/DW、ODS/DB间的比 较

2.2 数据仓库的功能和特征 2.3 数据仓库的数据组织2.3.1 数据仓库的数据组织结构 2.3.2 数据颗粒度 2.3.3 数据的分割 2.3.4 数据仓库的数据追加技术 2.3.5 清理数据仓库的数据

2.5 外部数据和非结构数据2.5.1 外部数据的特征 2.5.2 为什么将外部数据放在数据仓 库 2.5.3 对外部数据进行管理的元数据 2.5.4 外部数据(非结构化数据)的 存储 2.5.5 外部数据的使用Slide 1

商务智能与决策

2.3 数据仓库的数据组织2.3.1 数据仓库的数据组织结构 2.3.2 数据颗粒度 2.3.3 数据的分割 2.3.4 数据仓库的数据追加技术 2.3.5 清理数据仓库的数据

Slide 2

商务智能与决策

2.3.1 数据仓库的数据组织结构

(1)数据组织结构 在数据仓库中,数据被分成4种级别,分别是:高度综合级 轻度综合级 当前细节级 早期细节级

一个典型的数据仓库的数据组织结构图如图2-14 所示。Slide 3

商务智能与决策

Slide 4

商务智能与决策

当前的数据总是首先进入当前细节级,然后根 据应用的需求,通过预运算将数据聚合成轻度 综合和高度综合级。比如,在电信公司中的电话呼叫数据中记录了每个 用户的每次呼叫; 进行OLAP分析时,常常需要不同层次的数据颗粒度 ,因此可以通过预运算将数据综合成每个用户每“ 天”的通话次数; 还可以进一步聚合成每个用户每“月”的通话次数 。

Slide 5

商务智能与决策

在数据仓库中,细节数据可以聚合成轻度和高度 综合级别的数据,比如按“月”、“季度”、“ 年”统计。 需要说明的是轻度和高度是一种相对的概念,而 没有绝对的边界,并且在数据仓库中数据的综合 程度常常有很多的级别。

Slide 6

商务智能与决策

(2)细节数据导出 随着时间的推移,系统中的一些细节数据已经老 化了,很少会被用户使用,此时为了节省系统的 存储空间,可以将这些老化的细节数据导出到备 份设备上。如图2-15所示是一个数据仓库数据组织的示例。由于客户的呼叫 数据的数据量很大,并且数据仓库的使用者常常只关心近期的细 节数据,因此我们可以在系统中只保存近3个月的呼叫细节数据 ,而将3个月之前的详细数据导出到备份设备中。 在2001年3月时,系统保留了从2001/1—2001/3的呼叫详细数 据;等到2001/4月,2001/1月的细节数据被导出,保留的是从 2001/2—2001/4的呼叫详细数据。

Slide 7

商务智能与决策

Slide 8

商务智能与决策

实际上综合数据也可能被导出系统。 比如企业的管理者认为企业的决策只同企业近 15年来的运营数据有关,则15年之前的综合数 据也可以导出。

对于高度综合的数据,由于其数据量已经很少 ,所以一般可以不考虑它们的导出问题。 总的来说,数据仓库的这种组织方式的核心思 想是在系统中保留最有可能被用户使用的数据 ,而用户很少使用的数据则备份出系统。

Slide 9

商务智能与决策

元数据在数据仓库中,处理提取和综合后的数据还包 括非常重要的元数据,它描述的是提取和综合 后的数据的组织方式,我们在数据仓库的体系 结构中已经比较详细地介绍了元数据。

Slide 10

商务智能与决策

元数据 数据仓库的元数据主要包括两类:第一种是为了从操作型环境向数据仓库环境转换而建立的元 数据,它包括所有源数据项的名称、属性及其在提取仓库中 的转化; 第二种元数据在数据仓库中是用来与最终用户的多维商业模 型和前端工具之间建立映射的,这种数据成为DSS元数据,它 包括:(1)数据仓库中信息的种类、存储位置、存储格式; (2)信息之间的关系、信息和业务的关系,数据使用的业务规则;(如: 何时数据仓库中的所有数据才能用于生成报表) (3)数据模型; (4)数据模型和数据仓库的关系。

Slide 11

商务智能与决策

2.3 数据仓库的数据组织2.3.1 数据仓库的数据组织结构 2.3.2 数据颗粒度 2.3.3 数据的分割 2.3.4 数据仓库的数据追加技术 2.3.5 清理数据仓库的数据

Slide 12

商务智能与决策

2.3.2 OLAP中的数据颗粒度 OLAP中的 数据颗粒度是数据仓库中极其重要的概念。 数据仓库是面向OLAP(联机分析处理)和DM(数 据挖掘)的,对于OLAP和DM数据颗粒度有不 同的含义。 OLAP的一个重要的功能就是向最终用户呈现 不同综合程度的数据。

粒度就是对数据仓库中数据综合程度的一个度 量。Slide 13

商务智能与决策

1、数据粒度与数据量 数据的综合程度不同,其数据量将相差很大。数据粒度越小,信息越细节,数据量越大。 数据粒度越大,忽略了众多的细节,数据量越小。

Slide 14

商务智能与决策

如图2-16所示中的例子,按照每“月”统计的客户呼叫数据和按 照每次呼叫记载的客户呼叫数据,两者的数据量相差极大。 我们假定每个字段为8个字节,每个用户一天进行5次通话,则一 个客户1个月的呼叫细节数据的数据量为:8*6*30*5=7200字节, 而一个客户1个月的呼叫汇总数据的数据量为8*4=32字节。

Slide 15

商务智能与决策

2、数据粒度与数据的用途 数据的综合程度还会影响数据的用途。 对于多维查询来说,可能使用的是细节数据:例如要回答“王五在2001/3/21号是否在北京给 赵六发送了短信”这样非常细致的问题,细节数据 非常合适,而综合数据不可能回答,因为数据的综 合使得细节信息丢失。

Slide 16

商务智能与决策

但是,如果要回答“王五在2001/3到2001/7 间的总话费是多少”这样综合程度较高的

问题 时,使用细节数据将需要进行统计运算后才能 回答,这将增加用户的等待时间,而使用综合 数据则可以迅速地回答这个问题。 如图2-17所示的细节数据和综合数据用途上的

差异。图2-18所示的细节数据和综合数据在回答综合 问题上代价的差异。

Slide 17

商务智能与决策

Slide 18

商务智能与决策

Slide 19

商务智能与决策

从图中我们可以看出,综合程度不同的数据其用途不 同,在数据仓库中多重的数据粒度是必不可少的。

对细节数据和综合数据采用不同策略由于数据仓库最主要的目的是反映企业整体信息和BI 分析,回答综合程度较高的问题。如果为了回答许多 细节问题,而使系统的数据量极度膨胀,从而降低系 统的运营效率,就背离了系统建设的初衷,这也是我 们在数据仓库数据组织方式中说明的,对细节数据和 综合数据采用不同策略的原因。 实际的工程项目中,我们可以将综合程度较高的数据 存放在访问速率较高的磁盘上,而将细节数据定期导 出到低速的磁带上。Slide 20

商务智能与决策

例如,我们将近3个月的呼叫细节数据和按月综合的数 据、按年综合的数据放在高速磁盘上,将以往的细节 数据放在低速磁带上,如图2—19所示。

需要注意的是:从数据仓库中导出的数据仍然属于数 据仓库,只是在存储介质上发生了改变。Slide 21

本文来源:https://www.bwwdw.com/article/l6vj.html

Top