数据仓库考试复习资料

更新时间:2023-11-27 17:51:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据仓库资料

一、 简答

1、

什么是元数据?元数据如何分类?请叙述元数据的作用。

答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。

元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据 元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。

2、

数据仓库项目与OLTP系统项目有什么不同?

答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据

对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。

面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数 据通常是企业业务细节信息,其目标是实现企业的业务运营。而数据仓库的使用人 员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节, 其目的是为企业决策者提供支持。

3、

MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。

答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。

相同点:1)数据都作为关系表存储再数据仓库中 2)都能获得一定成都的汇总数据 3)都是从数据仓库存储器中访问数据

4、

什么是星型模式?什么是雪花模型?它由哪些表组成?

答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表 表达一个维,所有维度字段组成事实表的复合主键,事实表中的 非主键属性称为事实,汇总出来的数值型数据大都是文字,时间

1

等类型的数据。

雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展, 可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余, 从而使事实表,字段数和总长度降低。 它由一个事实表和一组维表组成。

5、

简要说明对数据仓库概念的理解,并解释其与数据库的不同之处。

答:数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。

简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较的不同之处在于:

“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。

“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。

“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。 6、

在数据仓库内进行数据迁移有哪四种方法?解释其中的两种。

答:第一种可选方法是使用可移动表空间,它能移动完整的表空间集合(不仅包

2

括表,还包括索引、物化视图和其他对象)。通常它还是这三种方法中最快的一种。但是,它的一个主要缺点是对指定的表空间必须在复制文件时设置为只读。 第二种方法是使用数据泵,它对表空间是否为只读没有要求。当只需要移动指定的表而不是整个表空间时,这种方法很有用。

第三种方法是拖出表空间,该方法把可移动表空间方法的所有步骤组合成一步操作。用这种方法复制数据非常简单,但要想调整每个具体步骤以便进行性能优化时,它为数据库管理员提供的灵活性太少。

第四种方法是物化视图迁移。 7、

为什么说ETCL功能是数据仓库环境中最有挑战性的工作? 答:1)源系统彼此悬殊,种类多样

2)通常应付多个平台上的不同操作系统

3)很多源数据都使陈旧的应用系统采用的过时的技术

4)取值不断变化的历史数据不会被保存在操作系统中,而历史信息对数据仓 库至关重要

5)很多旧系统中的数据质量不同,需要花很多时间处理 6)源系统间普遍缺乏一致性

7)源系统的结构随时间会发生变化,因新的商业元件不断出现,ETL功能也 必须做相应的调整。

8)即使在不同源系统中已发现不一致的数据,也缺乏解决方法,这使不一致 的问题更严重

9)大多数源系统的数据格式和类型对用户没有实际意义。

8、

数据质量问题有哪些?举例说出5钟数据污染源。 答:

3

数据质量问题分类

影响企业数据质量的因素有很多, 主要有:

(1) 分布式的运营环境产生无用的冗余数据; 缺乏共同的标准; 采用不同的技术和架构, 不同的业务规范和数据模式。

(2) 技术水平限制造成元数据不准确, 数据不一致、数据重复、数据二义性等问题; 转换过程中的错误通常带来数据质量问题。

(3) 终端用户没有按照程序输入和维护数据, 只有最低限度控制能力的旧的遗留系统进一步加剧了这一问题。

(4) 企业中缺乏数据质量监督管理措施。在企业信息系统建设中往往在业务流程上倾注过多的精力, 对于提高数据的质量不够重视。

(5) 数据产品作为一种特殊的资源存在于企业中, 它不可消耗, 可在系统和用户间共享, 可以复制和更新。但它极易遭到破坏, 企业环境的动态变换也造成了数据的不稳定性。

9、

解释并比较数据仓库中的信息和操作性系统中信息的使用及价值。

答:从技术上讲数据仓库的定义是\面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用来支持决策分析.\

1) 面向主题:传统的数据库系统中的数据是面向事务处理任务的,应用系统之间相互分离.而数据仓库中的数据是按照一定的主题域进行组织的,面向主题是个抽象的概念,是指企业利用数据仓库进行决策分析是所关心的重点问题,比如说\企业的经营状况,企业的财务状况,产品历年来的销售情况和销售趋势等等\通常一个主题与多个应用系统相关.

4

2) 集成性:面向事物处理的操作性数据库系统通常于特定的应用有关,数据库之间相互独立,并且是异构的,数据仓库是在对原有分散的数据库系统进行数据抽取,清洗的基础上经过汇总和整理得到,必须消除原数据的不一致性,以保证数据仓库中的数据是反映整个企业的一致的全局信息.

3) 稳定性:操作性数据库中的数据通常是实时更新的,数据根据具体需求做出变化,数据仓库中的数据是用来帮助企业进行决策分析的,一旦某个数据进入数据仓库,一般会被长期保留,也就是说数据仓库当中一般会有大量的插入和查询操作,删除和修改操作相对较少.只要定期更新和加载即可. 4) 反映历史变化:操作性数据库一般关心某段时间内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一点到当前各个时间段内的信息,通过这些信息,能够对企业的发展历程和发展趋势做出分析和预测

企业级数据仓库建立是在业务系统和大量业务数据的基础上形成的,数据仓库不是静态的概念,必须将这些信息及时的交付给信息的使用者,供他们做出改善业务的决策.这样信息才有意义,并对这些信息进行整理和汇总,及时交付给管理决策人员.数据仓库是一个工程.

10、

数据网络仓库的总线体系结构是什么?它怎样才能适用于支持Web数据仓库? 答:MPP服务器架构的并行处理能力适合于复杂的数据综合分析与处理环境。当然,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外,这种并行处理能力也与节点互联网络有很大的关系。显然,适应于数据仓库环境的MPP服务器,其节点互联网络的I/O性能应该非常突出,才能充分发挥整个系统的性能。

二、 论述

1、阅读以下关于数据仓库的叙述,回答[问题1]、[问题2]和[问题3]。

随着计算机应用的不断普及,某集团公司先后建立了生产、销售、财务、人事管理等应用系统,并积累了大量的数据。面对日益激烈的市场竞争,公司领导希望建立一个分析环境,对积累的数据进行再加工,以支持高层决策。

公司技术部门的王总工程师提出建立一个数据仓库系统。他认为数据仓库能够将企业内部分散的、跨平台的数据重新组织与加工,建立数据仓库的最终目标是建立一个全

5

本文来源:https://www.bwwdw.com/article/8xet.html

Top