数据仓库技术白皮书之二

更新时间:2023-08-25 11:31:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据仓库技术白皮书之二

目录

1

2

3

4

5

6

7

8 从数据库到数据仓库 ......................................................................................................................................2 何谓数据仓库? ...............................................................................................................................................3 数据仓库主要的作用 ......................................................................................................................................4 数据仓库的体系结构 ......................................................................................................................................5 OLAP与数据仓库技术..................................................................................................................................6 数据挖掘与OLAP...........................................................................................................................................7 数据仓库和数据挖掘技术离我国企业有多远? .....................................................................................8 总结 .....................................................................................................................................................................9

数据仓库技术白皮书之二

1 从数据库到数据仓库

您听说过数据仓库吗?您知道为什么要建立和使用数据仓库呢?您想知道您的企业是否适合使用数据仓库吗?您想了解数据仓库技术吗?

让我们先来看一些统计数字。1994年,一份由META小组对2000家企业的CIO所作的调查表明,百分之九十以上的企业都计划在1994年至1996年之间实现数据仓库。百分之九十的大公司计划在1996年采用数据仓库技术。而IDC在1996年的一次对90年代前期进行的62个数据仓库项目的调查结果表明:进行数据仓库项目开发的公司在平均2.73年的时间内获得了平均为321%的投资回报率。实际上,正是使用数据仓库所产生的巨大效益刺激了对数据仓库技术的需求,使得数据仓库的研究和应用迅速发展起来。

应该说,数据仓库技术是信息工程实践的必然产物,是人们对信息处理的客观要求。一直以来,如何有效地管理企业在运营过程中所产生的大量数据和信息是信息技术人员面临的重要课题。70年代出现并被广泛应用的关系型数据库技术为这一问题的解决提供了强有力的工具。然而从80年代中期开始,信息系统的用户已经不满足于用计算机仅仅去管理日常的生产数据,他们更需要的是信息——支持决策制定过程的信息,也就是说,他们需要从大量的业务数据中探索业务活动的规律性及市场的运作趋势,并从中得到参与市场竞争所必需的决策。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。这具体体现在以下三个方面:

历史数据量很大。全球范围内数据库中存储的数据量急剧增大,有些公司经

过长年累月积聚下来的商业数据目前已经超过几百万条记录。虽然数据库系统提供了对这些数据的管理和简单的处理功能,人们可以在这些数据之上进行商业分析和科学研究,但如此庞大的数据对人工处理来说是非常困难的。 辅助决策信息涉及许多部门甚至企业外部的数据,而不同系统的数据难以集

成。尽管大多数的企业中已经有了成功的MIS系统、CMIS系统、或是有了大量卓有成效的过程控制系统,其中的数据体系对应着一项项业务处理和一个个控制环节,它们能完善地支持其原有的工作。但当从企业级的角度去审视,并想进一步分析处理时,这些数据又往往过于分散,数量越来越大,并难以集成。这些数据适合原有的工作任务,但不适合现在的要求。要支持企业级的决策,就是需要从“洪水般的数据”中进行面向企业级的工作任务进行重组,对分散在多个事务处理应用中的相关数据进行集成,以向分析人员提供统一的数据视图。

由于访问数据的特性不同,它对大量数据的访问性能明显下降。在事务处理

环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许按分时方式使用系统资源,同时保持较短的响应时间。

数据仓库技术白皮书之二

而在分析处理环境中,用户的行为模式与此完全不同,某个决策支持应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。将具有如此不同处理特性的两种应用放在同一个环境中运行显然是不适当的。

另一方面,进入八十年代以后,新的客户机/服务器技术和并行可扩展体系结构数据库技术得到了迅猛发展,企业大型联机事务处理技术走向成熟,解决了企业实时业务交易的应用需求。同时,也使得企业的运作上升到一个电子化、信息化的环境。

总之,企业竞争对于决策信息的需求以及相关技术的成熟最终孕育了数据仓库技术。那么,到底什么是数据仓库呢?

2 何谓数据仓库?

90年代初期,美国著名信息工程学家W.H.Inmon博士在《建立数据仓库》一书中提出了“数据仓库"的概念:“数据仓库(data warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。”

所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如销售情况、人事情况、整个企业的利润状况等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。

所谓集成的,是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个企业的一致的全局信息。

所谓稳定的,是指一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。

所谓包含历史数据的,是指数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势作出定量分析和预测。

举个例子来说,银行的信贷业务处理系统负责处理银行日常各笔信贷业务,如贷款的申请、调查、审批、发放、回收、不良贷款处置等具体的业务环节,记录具体客户信息的变更。为了管理决策的需要,可以考虑在企业的数据仓库把信贷业务作为一个主题。同时,信息的组织要针对决策的方向,例如,数据仓库内的数据可能重点面向对信贷资产、不良信贷资产、坏帐等方面,进行重点分析。为了决策支持的方便,在数据仓库中存放的应该是经过加工、汇总和整理过的信息,例如,在决策时,关心的不是具体的某笔业务,而是业务的发展趋势,所以应把业务信息按旬或月汇总后在数据仓库加以记录。为了全面反映整个银行信贷资产的状况,如果目前的信贷业务处理系统中没有把所有与信贷业务有关的信息

数据仓库技术白皮书之二

包括在内(例如,贸易融资项下外汇信贷业务常常不包括在一般的信贷业务处理系统中),则要在数据仓库中把这些有关的业务信息归并在一起加以统计。管理决策过程中需要做充分的分析预测工作,这不但需要当时时点的信息,还需要历史过程的数据,因此,要定期对业务处理系统的数据进行加工、汇总和整理,并及时放入数据仓库中。

从上面的概念来看,数据仓库似乎是一个静态的概念,因此,有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制。这种理解是不对的。事实上,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,数据仓库是一个工程的概念,是一个动态的概念。

3 数据仓库主要的作用

首先,数据仓库提供了标准的报表和图表功能。其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个企业集成信息的报表和图表。

其次,数据仓库支持多维分析。多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度,例如,时间和地理区域是经常采用的维度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。

第三,数据仓库是数据挖掘技术的关键基础。数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作出预测。在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展作出比较完整、合理、准确的分析和预测。

在谈到数据仓库的时候,我们还经常会遇到数据集市和元数据这两个概念。所谓数据集市(data mart)是数据仓库的一个子集,它是面向某个更细的业务主题或业务功能的。数据集市中的数据通常也是经过汇总的(例如按月汇总),不是具体的业务数据。数据集市可以下载到一个客户机系统上,也可以驻留在服务器中。数据集市一般按预定的时间间隔进行数据更新(插入新数据),以保证及时性。通常在部门级的决策支持中或对某个特定的业务进行分析时使用数据集市,而不用于企业范围的策略规划。

所谓元数据是关于数据的数据。元数据记录了数据仓库中的数据间的关系,以及与操作型数据(operational data),即业务处理系统中的业务数据间的关系。

数据仓库技术白皮书之二

4 数据仓库的体系结构

数据仓库从多个信息源中获取原始数据,经整理加工后,存储在数据仓库的内部数据库中,通过数据仓库访问工具,向数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。为了达到这样的目标,一个数据仓库一般来说包含以下八个主要组成部分:

(1)数据源:为数据仓库提供源数据(source data),如各种生产系统数据库,联机事务处理系统(OLTP)的操作型(operational)数据,外部数据源等都可以作为数据仓库的数据源。

(2)数据抽取(extraction)、转换(transformation)、装载(load)和刷新(refresh)工具:其功能是从数据源中抽取数据,对数据进行检验和整理,并根据数据仓库的设计要求,对数据进行重新组织和加工,装载到数据仓库的目标数据库中,并且可以周期性地刷新数据仓库以反映源的变化以及将数据仓库中的数据作转储。

(3)数据建模工具(modeling tools):用于为数据仓库的源数据库(source database)和目标数据库建立信息模型,以描述数据检验、整理、加工的需求和相应过程及步骤。随着企业的业务发展,数据仓库管理人员可以通过使用数据建模工具,根据企业决策和综合分析的需要,对数据的检验、整理、加工和重新组织的过程进行调整和优化。

(4)元数据仓储(metadata repository):用于存储数据模型和元数据。其中,元数据描述了数据仓库中源数据和目标数据本身的信息,定义了从源数据到目标数据的转换过程。

(5)数据仓库监控(monitoring)和管理(administration)工具:对数据仓库的运行提供监控和管理手段,包括系统资源的使用情况、用户操作的合法性、安全管理、存储管理等多方面的内容。

(6)数据仓库及数据集市(data marts)的目标数据库(target database):存储经检验、整理、加工和重新组织后的数据。它可以是关系数据库(ROLAP)或多维数据库(MOLAP)。

(7)OLAP服务器:是功能强大的多用户的数据操纵引擎,特别用来支持和操作多维数据结构,为前端工具提供多维数据视图及服务。

(8)前端数据访问和分析工具:供业务分析和决策人员访问目标数据库中的数据,并作进一步的深入分析之用。数据访问和分析工具不但要提供一般的数据访问功能,如查询、汇总、统计等,还要提供对数据的深入分析功能,即数据挖掘(data mining)的功能,如数据的比较、趋势分析、模式识别等。而数据仓库的数据访问和分析要在一定程度上面向企业的业务需求,所提供的数据是在业务上有意义的信息,而不只是通用的数据查询和操作功能。

右图示出了一个数据仓库的一般体系结构。

数据仓库技术白皮书之二

当然,并不是所有数据仓库系统都必须具有以上所述的各个部分。在实现数据仓库的时候,往往需要根据企业的特殊需求,定义自己的数据仓库体系结构。有可能会更加强调某一部分的功能,简化甚至忽略某一部分的功能,或者将某几部分的功能进行组合。因此,当我们分析数据仓库产业界及学术界的各种数据仓库体系结构时,往往并不能看到完全统一的体系结构。

5 OLAP与数据仓库技术

“联机分析处理(OnLine Analysis Processing,简称OLAP)”的概念首先是由关系数据库之父E.F.Codd提出来的。根据OLAP委员会的定义,OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP是利用数据仓库技术的真正价值所在。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

具体来说,维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间推移而产生的变化情况,这时它是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。企业也时常关心自己的产品在不同的地区的销售分布情况,这时他是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)。而多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、旋转(Pivot)、向上归纳(roll-up)、向下考察(drill-down)等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。

OLAP是以数据库或数据仓库为基础的,其最终数据来源与所谓的联机事务处理(OLTP)一样均来自底层的数据库系统,但由于OLTP面对的是操作人员和低层管理人员,而OLAP面对的是决策人员和高层管理人员,二者所面对的用户不同,因而数据的特点与处理也明显不同:

表1

从实现上说,目前对OLAP工具并没有统一的分类标准。大致上,我们可以把OLAP工具分成多维数据库工具(multidimensional database,简称MOLAP)和关系型OLAP工具(relational OLAP,简称ROLAP)和桌面型OLAP工具等三大类。

多维数据库工具的数据存储不采用传统关系模型所使用的记录、表等方式,而采用矩阵(可能是多维的矩阵)的方式来存储数据。市场上已有一些产品,基本上各自为政,遵循自己定义的标准,按照各自厂商对市场用户需求的理解,从不同的角度不同程度上支持用户的决策制定过程。

ROLAP工具使用关系型数据库来进行多维分析,相关的技术和产品发展得很快。由于许多厂商都看好这个市场,因而这类工具的产品比较丰富。与多维数据

数据仓库技术白皮书之二

库工具相比,关系型的OLAP工具在数据库层次上有标准的关系模型,有标准的数据访问方式(SQL)及其编程接口,工具与数据库的可互联性比较好。而且,由于关系型数据库技术十分成熟,应用面很广,在今后一段时间内,关系型OLAP工具将作为OLAP工具的一个主流市场。

所谓桌面型OLAP工具是指在微机环境下开发的支持简单多维分析的用户工具。这些工具没有自己的数据存储,它们把用户提交的查询翻译为对数据源的查询,然后把从数据源得到的结果数据合成最终的结果,返回给用户。这些工具的功能和可用性都比较好,但主要问题在于所支持的应用规模有限,而且不能完全支持OLAP的所有特性。

在数据仓库工程中,如何选择合适的工具,是工程技术人员经常面临的难题。在选择OLAP工具的时候,一般应从产品的功能、适用性、性能、可伸缩性(scalability)和未来的发展趋势等五个方面综合考虑。

6 数据挖掘与OLAP

据有关统计,全世界在业务管理、政府管理、科学与工程数据管理和其它应用领域方面所使用的数据库数以百万计。而且,随着数据库技术的发展,数据库的数量和规模还在迅速增加。特别是数据仓库的出现,使得原有的数据库工具已无法满足用户的需求,用户不仅需要一般的查询、报表工具,更需要的是那些能够帮助他们从浩瀚的数据海洋中提取出高质量信息的工具。这种状况导致了对数据挖掘技术的需求。数据挖掘技术与数据库中的知识发现的目标就是要智能化和自动化地把数据转换为有用的信息和知识。

一般认为,数据库中的知识发现(knowledge discovery in databases,简称KDD)是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。而数据挖掘(data mining)是KDD过程的一个步骤,它是在现实可接受的计算效率限制下,应用数据分析和发现算法,在数据的基础上,对模式的特定枚举。在这里,模式是指从数据中抽取的模式或模型。而KDD过程则是对数据库加以必要的选择、预处理、抽样和变换,应用数据挖掘方法(算法)枚举模式,并评价数据挖掘的结果以确定所枚举的模式中的子集,这些子集被称为知识。

现在,数据挖掘与KDD已经成为一个非常重要和非常活跃的研究领域,这主要是由于数据挖掘能为决策者提供重要的、极有价值的信息或知识,从而产生不可估量的效益。有一个很普通、却很能说明数据挖掘如何产生效益的例子:美国加州某个超级连锁店通过数据挖掘从记录着每天销售和顾客基本情况的数据库中发现:在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。于是这个连锁店的经理当机立断地重新布置了货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆片之类的佐酒小食品,同时把男士们需要的日常生活用品也就近布置。这样一来,上述几种商品的销量几乎马上成倍增长。

数据仓库技术白皮书之二

值得一提的是,数据挖掘与OLAP都属于分析型工具,但两者之间有着明显的区别。数据挖掘是一种有效地从大量数据中发现潜在数据模式、作出预测性分析的分析工具,是现有的一些人工智能、统计学等成熟技术在特定的数据库领域中的应用。数据挖掘与其他分析型工具最大的不同在于:它的分析过程是自动的。一个成熟的数据挖掘系统除了具有良好的核心技术外,还应该具有开放性的结构,友好的用户接口。数据挖掘的用户不必提出确切的问题,而只需数据挖掘去挖掘隐藏的模型并预测未来的趋势,这样更有利于发现未知的事实。

OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。与数据挖掘相比,OLAP更多地依靠用户输入问题和假设,但用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。因此,作为验证型分析工具,OLAP更需要对用户需求有全面而深入的了解。

显然,从对数据分析的深度的角度来看,OLAP位于较浅的层次,而数据挖掘所处的位置则较深。所处分析模型层次的不同决定了这两者的分析能力和所能回答的问题种类也不相同。

尽管数据挖掘、OLAP存在着上面的差异,但作为数据仓库系统的工具层的组成部分,两者是相辅相成的。并且随着OLAP的发展,OLAP与数据挖掘间的界限正在逐渐模糊,因为越来越多的OLAP厂商将数据挖掘的方法融入他们的产品中,这可能是OLAP产品的一个发展方向。在整个决策分析系统中,OLAP与数据挖掘以及其它工具由于内在技术以及适用范围的不同,必须协调使用才能发挥最佳的作用。

7 数据仓库和数据挖掘技术离我国企业有多

远?

与企业的老总和信息技术部门主管介绍数据仓库和数据挖掘技术时,他们往往对有关的概念和方法很感兴趣,但结合我国企业的具体实际情况,对当前的应用前景不太乐观。那么,数据仓库和数据挖掘技术真的难以在国内企业中推广应用吗?

国内企业应用新技术的主要难点在于运作和管理流程自动化程度相对比较低,比较多地需要有关人员的干预和主观判断。因此,企业缺乏大量的及时可靠的基础数据,在应用数据仓库的过程中,首先遇到的问题就是如何解决数据质量。

其次,就我国目前情况看,相当一部分企业工作的重点还是在于生产流程控制和比较基层的管理,而一些宣传材料给这些企业的主管们一个印象,数据仓库是大规模企业管理的专利,中小型企业和基础不太好的企业能用数据仓库吗?是不是小企业只需要数据库就可以了?数据仓库在中小型企业应用效果如何呢?

数据仓库技术白皮书之二

其实,最关键的一点是,数据仓库和数据挖掘本身是技术,而企业直接需要的是业务解决方案。因此,必须把技术融入业务过程中去,利用新技术改进业务运作和管理,才能真正吸引企业,使得数据仓库和数据挖掘技术得到广泛应用,对企业的经营管理产生真正的推动作用。

数据仓库的本质是按管理控制的需要重新组织数据,在有效组织数据的基础上提高管理效率。所以,数据仓库的本质特征不是其容纳的数据量巨大。数据仓库既可以应用于大规模的管理,也可以应用于中小型企业。国外的应用经验表明,由于中小型企业一方面机构、业务相对比较简单,数据比较清晰,另一方面要求经营管理比较灵活,迅速适应市场变化,因此,在应用数据仓库的过程中往往成本比较低,见效比较快。

而数据挖掘是从大量数据中发现隐含的规律的技术。解决数据质量问题,识别虚伪的数据是数据挖掘技术的一个重要应用,因此,根据我国企业数据质量不理想的状况,正可以把数据挖掘技术与数据仓库技术的应用相结合,从提高数据质量入手,结合管理流程改革和重组,建立企业数据仓库。

数据仓库和数据挖掘技术并不要求一定在整个企业范围内才能应用。由于数据仓库是面向主题的,因此,可以把数据仓库先应用到企业的局部,然后逐步展开。Inmon在其著作中也反复强调,操作数据存储(ODS)——数据集市(data mart)——数据仓库的发展过程是企业应用数据仓库的一种理想的推广策略。所以,完全可以先在局部建立操作数据存储,然后在部门一级根据管理需要建立数据集市,取得成效后在逐步推广,在更高层次上形成企业数据仓库。

目前,我国许多企业都在不同程度地进行业务过程重组(BPR,business process reengineering)的工作,在这个过程中,需要特别强调把管理和控制贯穿在整个企业的生产经营中。数据仓库技术和数据挖掘技术则可以很好地满足业务过程重组的需要。我们反复强调过,数据仓库技术是从产业界发展而来的技术,因此,它带有浓重的应用色彩。可以这么说,数据仓库技术是一项贴近业务解决方案的技术,它不是通常意义上的单纯技术,而是一套行之有效的业务解决方案原则和思想。

所以,无论业务管理、决策人员还是技术人员,都不应把数据仓库技术和数据挖掘技术看成是单纯的计算机技术,而应该在业务解决方案的思想方法的高度理解、掌握和运用数据仓库和数据挖掘技术。对数据仓库和数据挖掘来说,技术和产品固然重要,但最重要的是在业务流程中贯彻企业决策管理信息模型的思想和方法,这是数据仓库技术和数据挖掘技术的灵魂和活力所在。

8 总结

数据仓库是信息工程实践的必然产物,是人们对信息处理的客观要求。随着企业发展,其数据库中数据量在急剧增加,原来的数据库只能对这些数据进行简

数据仓库技术白皮书之二

单的管理和处理,无法满足更高的决策分析需求;而且进行决策分析往往涉及到许多部门甚至企业外部的数据,而不同系统的数据又难以集成;事务处理环境和分析处理环境是截然不同的模式,将这两种不同的应用放在一个系统中显然是不适当的。另外,客户机/服务器技术和并行可扩展体系结构使数据库技术得到了迅猛发展,企业大型联机事务处理技术走向成熟,也使得企业的运作上升到一个电子化、信息化的环境。总之,企业竞争对于决策信息的需求以及相关技术的成熟终于为我们带来了数据仓库。

数据仓库从多个信息源中获取原始数据,经加工整理后,存储在数据仓库的内部数据库中,通过数据仓库访问工具,向数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和进行深入综合分析。

一般来说,数据仓库包括八个主要组成部分:数据源、数据抽取、数据建模工具、元数据仓储、数据仓库监控和管理工具、数据仓库的目标数据库、OLAP服务器以及前端数据访问和分析工具。而在数据仓库的设计过程中的主要问题是数据仓库的目标数据库的选择、数据抽取和转换工具以及前端数据访问和分析工具。

数据仓库技术的真正价值在于OLAP(联机分析处理),OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术,目标就是满足决策支持或特定的查询和报表需求。

数据挖掘技术的目标就是要智能化和自动化地把数据转换为有用的信息,它的整个分析过程是自动的。它与OLAP是容易混淆的两个概念。OLAP是用户提出问题或假设,OLAP从上至下地提取该问题的详细信息,以可视化方式呈现给用户。OLAP处于较浅的层次,而数据挖掘处于较深的层次。当然二者是相辅相成的。随着OLAP的发展,OLAP 与数据挖掘之间的界限越来越模糊,因为越来越多的OLAP产品融入了数据挖掘功能。

讲了这些数据仓库的基本概念与关键问题,那么国内数据仓库应用的主要问题何在呢?国内的管理机制还不够完善,企业缺乏大量及时可靠的数据,甚至在一些方面还尚未实现量化,只有人工的判断和主观的评价,这都是症结所在。还有一个误区就是认为数据仓库对大的企业才有用。数据仓库技术的应用并不在于其数据规模的大小,而在于应用目的。可以根据我国企业数据质量不理想的状况,把数据挖掘技术和数据仓库技术的应用相结合,从提高数据质量入手,结合管理流程改革和重组,建立企业数据仓库。

本文来源:https://www.bwwdw.com/article/lwqi.html

Top