打印版 第1章 数据仓库概述

更新时间:2023-07-25 05:13:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

打印版 第1章 数据仓库概述

1)了解数据仓库产生的原因

2)掌握数据仓库的基本概念。

3)与数据库的不同

4)数据仓库的应用第1章数据仓库概述本章目标。((((

打印版 第1章 数据仓库概述

1.1回顾一下数据库

数据处理的中心问题是数据管理。数据管理是指对数据的组织、分类、编码、存储、检索和维护。

随着计算机硬件和软件的发展,数据管理经历了人工管理、文件系统和数据库系统三个发展阶段。

1.1.1人工管理阶段(50年代中期以前)

这一阶段计算机主要用于科学计算。

–硬件中的外存只有卡片、纸带、磁带,没有磁盘等直接存取设备。

–软件只有汇编语言,没有操作系统和管理数据的软件。

–数据处理的方式基本上是批处理。

打印版 第1章 数据仓库概述

人工管理阶段的特点如下:

(1)数据不保存

因为当时计算机主要用于科学计算,对于数据保存的需求尚不迫切。

(2)系统没有专用的软件对数据进行管理

每个应用程序都要包括数据的存储结构、存取方法、输入方式等,程序员编写应用程序时,还要安排数据的物理存储,因此程序员负担很重。

(3)数据不共享

数据是面向程序的,一组数据只能对应一个程序。多个应用程序涉及某些相同的数据时,也必须各自定义,因此程序之间有大量的冗余数据。

打印版 第1章 数据仓库概述

(4)数据不具有独立性程序依赖于数据,如果数据的类型、格式、或输入输出方式等逻辑结构或物理结构发生变化,必须对应用程序做出相应的修改。应用程序1应用程序2数据集1数据集2

应用程序3

数据集3

人工管理阶

打印版 第1章 数据仓库概述

1.1.2文件系统阶段(50年代后期至60年代中期) 这一阶段,计算机不仅用于科学计算,还大量用于信息管理。

大量的数据存储、检索和维护成为紧迫的需求。 硬件有了磁盘、磁鼓等直接存储设备。

在软件方面,出现了高级语言和操作系统。

操作系统中有了专门管理数据的软件,一般称为文件系统。

处理方式有批处理,也有联机处理。

打印版 第1章 数据仓库概述

文件管理数据的特点如下:

(1)数据以文件形式可长期保存下来

用户可随时对文件进行查询、修改和增删等处理。

(2)文件系统可对数据的存取进行管理

程序员只与文件名打交道,不必明确数据的物理存储,大大减轻了程序员的负担。

(3)文件形式多样化

有顺序文件、倒排文件、索引文件等,因而对文件的记录可顺序访问,也可随机访问,更便于存储和查找数据。

(4)程序与数据间有一定独立性

由专门的软件即文件系统进行数据管理,程序和数据间由软件提供的存取方法进行转换,数据存储发生变化不一定影响程序的运行。

打印版 第1章 数据仓库概述

应用程序1应用程序2…应用程序n文件系统

文件1文件2…文件n在文

件系统阶段,程序与数据之间的关系

打印版 第1章 数据仓库概述

与人工管理阶段相比,文件系统阶段对数据的管理有了很大的进步,但一些根本性问题仍没有彻底解决,主要表现在以下三方面:

(1)数据冗余度大

各数据文件之间没有有机的联系,一个文件基本上对应于一个应用程序,数据不能共享。

(2)数据独立性低

数据和程序相互依赖,一旦改变数据的逻辑结构,必须修改相应的应用程序。而应用程序发生变化,如改用另一种程序设计语言来编写程序,也需修改数据结构。

(3)数据一致性差

由于相同数据的重复存储、各自管理,在进行更新操作时,容易造成数据的不一致性。

打印版 第1章 数据仓库概述

1.1.3数据库系统阶段(60年代末开始)

60年代后期,计算机应用于管理的规模更加庞大,数据量急剧增加;

硬件方面出现了大容量磁盘,使计算机联机存取大量数据成为可能;

硬件价格下降,而软件价格上升,使开发和维护系统软件的成本增加。

文件系统的数据管理方法已无法适应开发应用系统的的需要。

为解决多用户、多个应用程序共享数据的需求,出现了统一管理数据的专门软件系统,即数据库管理系统。

打印版 第1章 数据仓库概述

数据库系统管理数据的特点如下:

(1)数据共享性高、冗余少

这是数据库系统阶段的最大改进,数据不再面向某个应用程序而是面向整个系统,当前所有用户可同时存取库中的数据。

这样便减少了不必要的数据冗余,节约存储空间,同时也避免了数据之间的不相容性与不一致性。

(2)数据结构化

按照某种数据模型,将全组织的各种数据组织到一个结构化的数据库中,整个组织的数据不是一盘散沙,可表示出数据之间的有机关联。

打印版 第1章 数据仓库概述

例:要建立学生成绩管理系统,系统包含学生(学号、姓名、性别、系别、年龄)、课程(课程号、课程名)、成绩(学号、课程号、成绩)等数据,分别对应三个文件。

若采用文件处理方式,因为文件系统只表示记录内部的联系,而不涉及不同文件记录之间的联系,要想查找某个学生的学号、姓名、所选课程的名称和成绩,必须编写一段不很简单的程序来实现。

而采用数据库方式,数据库系统不仅描述数据本身,还描述数据之间的联系,上述查询可以非常容易地联机查到。

打印版 第1章 数据仓库概述

(3)数据独立性高

数据的独立性是指逻辑独立性和物理独立性。

数据的逻辑独立性是指当数据的总体逻辑结构改变时,数据的局部逻辑结构不变,由于应用程序是依据数据的局部逻辑结构编写的,所以应用程序不必须修改,从而保证了数据与程序间的逻辑独立性。

–例如,在原有的记录类型之间增加新的联系,或在某些记录类型中增加新的数据项,均可确保数据的逻辑独立性。

数据的物理独立性是指当数据的存储结构改变时,数据的逻辑结构不变,从而应用程序也不必改变。

–例如,改变存储设备和增加新的存储设备,或改变数据的存储组织方式,均可确保数据的物理独立性。

打印版 第1章 数据仓库概述

(4)有统一的数据控制功能

数据库的访问是并发进行的,为确保数据库数据的正确有效和数据库系统的有效运行,数据库管理系统提供下述四方面的数据控制功能。

–数据的安全性(security)控制:防止不合法使用数据造成数据的泄露和破坏,保证数据的安全和机密;–数据的完整性(integrity)控制:系统通过设置一些完整性规则以确保数据的正确性、有效性和相容性;

正确性是指数据的合法性,如年龄属于数值型数据,只能含0,1,…9,不能含字母或特殊符号;

有效性是指数据是否在其定义的有效范围,如月份只能用1~12之间的正整数表示;

相容性是指表示同一事实的两个数据应相同,否则就不相容,如一个人不能有两个性别。

打印版 第1章 数据仓库概述

–并发(concurrency)控制:多用户同时存取或修改数据库时,防止相互干扰而提供给用户不正确的数据,并使数据库受到破坏。

–(4)数据恢复(recovery):当数据库被破坏或数据不可靠时,系统有能力将数据库从错误状态恢复到最近某一时刻的正确状态。

打印版 第1章 数据仓库概述

应用程序1数据库

应用程序2

数据库管理系统

应用程序n

数据库系统阶段,程序与数据之间的关系

打印版 第1章 数据仓库概述

–从文件系统管理发展到数据库系统管理是信息处理领域的一个重大变化。

–在文件系统阶段,人们关注的是系统功能的设计,因此程序设计处于主导地位,数据服从于程序设计;

–而在数据库系统阶段,数据的结构设计成为信息系统首先关心的问题。

数据库技术经历了以上三个阶段的发展,已有了比较成熟的数据库技术,但随着计算机软硬件的发展,数据库技术仍需不断向前发展。

打印版 第1章 数据仓库概述

数据管理的变迁

打印版 第1章 数据仓库概述

1.2数据仓库的产生1.2.1对战略信息的不断增长的需求 企业信息危机(找不到所需的数据)海量数据数据分散形式多样结构不一致 技术发展趋势计算机技术人/机接口处理选择

打印版 第1章 数据仓库概述

1.2.1对战略信息的不断增长的需求 什么是战略信息Which are our Which are our lowest/highest margin lowest/highest margin customers?? customers What is the most What is the most effective distribution effective distribution channel? channel?t will pacct will ess im a ic Whatt imps//service a uct serv Wh od cts r u nue new p rod n rrevenue w p e o n eve? ne hav e o gi s hav d marrgn s? a in an d m an

Who are my customers Who are my cu

stomers and what products and what products are they buying? are they buying?

Which cu Whic st aaremosh cusomeers re m t l tom rs os ikel l to the co t likeyyto go to the co petit to go m p ion m etition??

打印版 第1章 数据仓库概述

1.2.1对战略信息的不断增长的需求 战略信息的特点综合性数据完整性可用性可靠性及时性必须有一个独立的、从企业整体来看的视角信息必须是准确的,必须符合商业规则必须是通过直观容易获得的,对于分析工作是有用的每个商业因素都必须有且只有一个值信息必须是在规定时间内准备好的,待用

打印版 第1章 数据仓库概述

1.2数据仓库的产生

决策支持系统的发展

决策支持系统的历史

即席查询报表

特殊抽取程序

小应用程序

信息中心

决策支持系统1.2.2

本文来源:https://www.bwwdw.com/article/xrlm.html

Top