数据仓库考试复习资料
更新时间:2023-11-27 17:51:01 阅读量: 教育文库 文档下载
- 数据仓库与数据挖掘考试推荐度:
- 相关推荐
数据仓库资料
一、 简答
1、
什么是元数据?元数据如何分类?请叙述元数据的作用。
答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。
元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据 元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。
2、
数据仓库项目与OLTP系统项目有什么不同?
答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据
对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。
面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数 据通常是企业业务细节信息,其目标是实现企业的业务运营。而数据仓库的使用人 员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节, 其目的是为企业决策者提供支持。
3、
MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。
答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。
相同点:1)数据都作为关系表存储再数据仓库中 2)都能获得一定成都的汇总数据 3)都是从数据仓库存储器中访问数据
4、
什么是星型模式?什么是雪花模型?它由哪些表组成?
答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表 表达一个维,所有维度字段组成事实表的复合主键,事实表中的 非主键属性称为事实,汇总出来的数值型数据大都是文字,时间
1
等类型的数据。
雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展, 可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余, 从而使事实表,字段数和总长度降低。 它由一个事实表和一组维表组成。
5、
简要说明对数据仓库概念的理解,并解释其与数据库的不同之处。
答:数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较的不同之处在于:
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据。因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。 6、
在数据仓库内进行数据迁移有哪四种方法?解释其中的两种。
答:第一种可选方法是使用可移动表空间,它能移动完整的表空间集合(不仅包
2
括表,还包括索引、物化视图和其他对象)。通常它还是这三种方法中最快的一种。但是,它的一个主要缺点是对指定的表空间必须在复制文件时设置为只读。 第二种方法是使用数据泵,它对表空间是否为只读没有要求。当只需要移动指定的表而不是整个表空间时,这种方法很有用。
第三种方法是拖出表空间,该方法把可移动表空间方法的所有步骤组合成一步操作。用这种方法复制数据非常简单,但要想调整每个具体步骤以便进行性能优化时,它为数据库管理员提供的灵活性太少。
第四种方法是物化视图迁移。 7、
为什么说ETCL功能是数据仓库环境中最有挑战性的工作? 答:1)源系统彼此悬殊,种类多样
2)通常应付多个平台上的不同操作系统
3)很多源数据都使陈旧的应用系统采用的过时的技术
4)取值不断变化的历史数据不会被保存在操作系统中,而历史信息对数据仓 库至关重要
5)很多旧系统中的数据质量不同,需要花很多时间处理 6)源系统间普遍缺乏一致性
7)源系统的结构随时间会发生变化,因新的商业元件不断出现,ETL功能也 必须做相应的调整。
8)即使在不同源系统中已发现不一致的数据,也缺乏解决方法,这使不一致 的问题更严重
9)大多数源系统的数据格式和类型对用户没有实际意义。
8、
数据质量问题有哪些?举例说出5钟数据污染源。 答:
3
数据质量问题分类
影响企业数据质量的因素有很多, 主要有:
(1) 分布式的运营环境产生无用的冗余数据; 缺乏共同的标准; 采用不同的技术和架构, 不同的业务规范和数据模式。
(2) 技术水平限制造成元数据不准确, 数据不一致、数据重复、数据二义性等问题; 转换过程中的错误通常带来数据质量问题。
(3) 终端用户没有按照程序输入和维护数据, 只有最低限度控制能力的旧的遗留系统进一步加剧了这一问题。
(4) 企业中缺乏数据质量监督管理措施。在企业信息系统建设中往往在业务流程上倾注过多的精力, 对于提高数据的质量不够重视。
(5) 数据产品作为一种特殊的资源存在于企业中, 它不可消耗, 可在系统和用户间共享, 可以复制和更新。但它极易遭到破坏, 企业环境的动态变换也造成了数据的不稳定性。
9、
解释并比较数据仓库中的信息和操作性系统中信息的使用及价值。
答:从技术上讲数据仓库的定义是\面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用来支持决策分析.\
1) 面向主题:传统的数据库系统中的数据是面向事务处理任务的,应用系统之间相互分离.而数据仓库中的数据是按照一定的主题域进行组织的,面向主题是个抽象的概念,是指企业利用数据仓库进行决策分析是所关心的重点问题,比如说\企业的经营状况,企业的财务状况,产品历年来的销售情况和销售趋势等等\通常一个主题与多个应用系统相关.
4
2) 集成性:面向事物处理的操作性数据库系统通常于特定的应用有关,数据库之间相互独立,并且是异构的,数据仓库是在对原有分散的数据库系统进行数据抽取,清洗的基础上经过汇总和整理得到,必须消除原数据的不一致性,以保证数据仓库中的数据是反映整个企业的一致的全局信息.
3) 稳定性:操作性数据库中的数据通常是实时更新的,数据根据具体需求做出变化,数据仓库中的数据是用来帮助企业进行决策分析的,一旦某个数据进入数据仓库,一般会被长期保留,也就是说数据仓库当中一般会有大量的插入和查询操作,删除和修改操作相对较少.只要定期更新和加载即可. 4) 反映历史变化:操作性数据库一般关心某段时间内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一点到当前各个时间段内的信息,通过这些信息,能够对企业的发展历程和发展趋势做出分析和预测
企业级数据仓库建立是在业务系统和大量业务数据的基础上形成的,数据仓库不是静态的概念,必须将这些信息及时的交付给信息的使用者,供他们做出改善业务的决策.这样信息才有意义,并对这些信息进行整理和汇总,及时交付给管理决策人员.数据仓库是一个工程.
10、
数据网络仓库的总线体系结构是什么?它怎样才能适用于支持Web数据仓库? 答:MPP服务器架构的并行处理能力适合于复杂的数据综合分析与处理环境。当然,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外,这种并行处理能力也与节点互联网络有很大的关系。显然,适应于数据仓库环境的MPP服务器,其节点互联网络的I/O性能应该非常突出,才能充分发挥整个系统的性能。
二、 论述
1、阅读以下关于数据仓库的叙述,回答[问题1]、[问题2]和[问题3]。
随着计算机应用的不断普及,某集团公司先后建立了生产、销售、财务、人事管理等应用系统,并积累了大量的数据。面对日益激烈的市场竞争,公司领导希望建立一个分析环境,对积累的数据进行再加工,以支持高层决策。
公司技术部门的王总工程师提出建立一个数据仓库系统。他认为数据仓库能够将企业内部分散的、跨平台的数据重新组织与加工,建立数据仓库的最终目标是建立一个全
5
正在阅读:
数据仓库考试复习资料11-27
电路系统实验课程教学大纲 - 图文03-10
关于调整重庆市市环境监测服务费收费标准的通知渝价771号文10-30
管理学经典案例02-02
中秋节的抒情散文03-30
励志故事大道理02-18
计组实验4控制器实验02-02
幼儿园中班体育教案11-28
市场营销作业-微波炉冰箱市场营销环境分析09-21
固体废物处理与处置1~4章习题11-25
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 复习资料
- 仓库
- 数据
- 考试
- 引物二聚体的形成
- 2012财产险核保中级资格考试大纲
- 财务管理学第七版课后练习题答案
- 生物氧化、糖代谢部分复习题
- 数据库系统原理期末复习大全 - 图文
- 第3章 效用论习题
- 股权转让取得建设用地使用权法律风险分析与防范之经典案例
- 校企合作与高职教育的改革与发展详解
- 天然气站安全操作规程
- 期间费用文献综述
- 园林绿化单位(子单位)工程植物成活覆盖率统计记录(YL4.0.6)
- 溶液偏摩尔体积的测定
- 数控铣工中级理论知识试卷
- 常见的手工电弧焊焊接缺陷及纠正预防措施
- 危重孕产妇救治中心基本工作制度(1-7条)
- 概率论与数理统计试题库及答案(考试必做)
- 《当代世界经济与政治》基本信息
- 火力发电厂输煤系统单机调试方案
- 一年级上册数学综合练习题
- 备份一体机建议参数 - 图文