XX银行数据仓库建设项目方案 - 图文

更新时间:2023-10-01 20:36:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

银行数据仓库建设方案文件

XX银行

EDW/数据仓库项目方案

1银行数据仓库建设方案文件

目 录

第一章 系统总体架构 ............................................................................. 4 1.1 总体架构设计概述 ........................................................................ 4 1.1.1 总体架构的设计框架 .............................................................. 4 1.1.2 总体架构的设计原则 .............................................................. 5 1.1.3 总体架构的设计特点 .............................................................. 5 1.2 EDW执行架构 ................................................................................ 6 1.2.1 执行架构概述 ........................................................................ 6 1.2.2 执行架构设计原则 ................................................................. 6 1.2.3 执行架构框架 ........................................................................ 7 1.3 EDW逻辑架构 ............................................................................. 14 1.3.1 逻辑架构框架 ..................................................................... 14 1.3.2 数据处理流程 ..................................................................... 20 1.4 EDW运维架构 ............................................................................. 21 1.4.1 运维架构概述 ..................................................................... 21 1.4.2 运维架构的逻辑框架 ........................................................... 22 1.5 EDW数据架构 ............................................................................. 27 1.5.1 数据架构设计原则 .............................................................. 27 1.5.2 数据架构分层设计 .............................................................. 29 1.6 EDW应用架构 ............................................................................. 31 1.6.1 应用架构设计原则 .............................................................. 31 1.6.2 数据服务 ............................................................................ 32 1.6.3 应用服务 ............................................................................ 33 第二章 ETL体系建设........................................................................... 34 2.1 ETL架构概述 ............................................................................. 34

银行数据仓库建设方案文件

2.2 ETL设计方案 ............................................................................. 36 2.3 ETL关键设计环节 ...................................................................... 36 2.3.1 接口层设计策略 .................................................................. 36 2.3.2 Staging Area设计策略 ...................................................... 36 2.3.3 数据加载策略 ..................................................................... 37 2.3.4 增量ETL设计策略 .............................................................. 37 2.3.5 异常处理 ............................................................................ 39 2.3.6 作业调度和监控 .................................................................. 40 2.3.7 元数据管理 ......................................................................... 40 2.3.8 ETL模块设计 ...................................................................... 40 2.3.9 ETL流程设计 ...................................................................... 43 2.3.10 动态资源分配 ................................................................... 45 2.3.11 数据接口设计 ................................................................... 46

银行数据仓库建设方案文件

第一章 系统总体架构

1.1 总体架构设计概述

1.1.1 总体架构的设计框架

XX银行EDW项目的总体架构分为基础技术架构、应用架构和数据架构三个核心部分。这三个部分共同组成了XX银行EDW系统。

在基础技术架构中,包括执行架构、逻辑架构、功能组件架构和运维架构四个部分。

? 执行架构描述系统大的框架和模块区域,以及之间的逻辑关系;是确定

生产环境的建设要求及指导原则。

? 逻辑架构描述EDW各个模块之间的数据的接口、数据流向、工具使用和

采用具体的技术实现手段或方式情况,用于规范本项目最终生产环境的建立。逻辑架构是建立应用架构、执行架构、运维架构的基础,也是建立执行架构、应用架构以及运维架构的原型系统。

? 功能组件架构描述确定系统各个大的组件组件区域的功能模块框架,以

及提供的某种服务类型。

? 运维架构是描述EDW项目的运维架构标准,包括运维架构设计的内容、

设计原则、各构成组件的设计考虑因素、约束、要求等。运维架构通过相应的流程和工具实现对逻辑架构、功能组件架构、执行架构、数据架构以及应用架构的运维和管理。 而数据架构和应用架构的主要描述:

? 应用架构是EDW为满足业务需求所提供的系统应用功能及其蓝图设计,

其中业务需求是应用架构设计的基础,最终的应用架构将以应用系统的形式体现在执行架构中,主要包括:应用服务和数据服务。

? 数据架构描述于EDW系统相关的数据流动策略,即数据在EDW系统的执

行架构下的抽取、转换、储存策略以及应采用的流程,包括数据层次和

银行数据仓库建设方案文件

总分行之间的数据分部情况等。数据架构是建立执行架构标准的需求定义。

下图是EDW项目总体架构的框架:

1.1.2 总体架构的设计原则

? 总体架构在着重考虑实施要求的同时,需要为后续阶段进行规划,以保

证项目最终能够达到目标架构的设计;

? 总体架构的设计要基于包括XX银行数据现状分析、实施阶段数据源情

况分析、第一阶段实施EDW设计建议做为参考;

? 总体架构设计架构时充分考虑与现有系统兼容,充分利用已有成果,避

免重复开发和建设。

? 总体架构设计过程中应遵守XX银行的IT管理规程,保证最终的系统可

以顺利的部署并移交给XX银行的运行维护部门。

1.1.3 总体架构的设计特点

? 权衡功能、性能、可扩展性、易用性、可管理性和性价比。

银行数据仓库建设方案文件

? 任务调度引擎

接受侦测器的信息调度任务执行(可以使本服务器任务也可以是其它服务器的任务)。

? 任务执行代理

调用任务包含的每个单元执行的服务,同一服务器上可以有多个任务执行代理同时运行。

? 任务

封装在Perl程序中,执行数据加载、整合、立方体生成等工作的一组程序。 ? 日志管理引擎

记录ETL调度管理各个服务器组件以及每个任务的执行日志,日志按天保存,可以定期清理。

? 管理监控器

Java应用程序,用于定义任务、任务组合触发关系等信息,同时可以实时监控任务执行情况查看日志。

作为专门为数据仓库系统设计的流程调度管理具有如下特点: ? 任务执行代理可分布在多台服务器上。 ? 结构简单、伸缩性强。 ? 支持多种执行任务。

1) 加载数据 2) 整合数据

3) 数据质量检查和清洗 4) 数据转换 5) OLAP数据生成 6) 数据挖掘模型的执行 7) 定制报表的产生 8) 定制页面的产生

9) 数据库备份、告警等系统作业 10) 调用其他ETL/ELT工具产生的任务

16

银行数据仓库建设方案文件

11) 数据导出到指定的渠道系统

? 执行的任务可以是另一个任务调度引擎触发(如:EDW)。 ? 可以启动其它的ETL引擎的任务。

1.3.1.3 数据平台层

【功能与作用】

作为本系统的数据核心部分,它负责存储和管理来自各种源数据系统的数据,并为访问用户提供数据服务。

这些数据是按照在逻辑数据模型分主题存放的。 【组成部分】

本层由操作型存储区、仓库存储区和集市应用层四个部分组成。详细内容参见“EDW数据架构”

1.3.1.4 数据集市层

【功能与作用】

数据集市是一组特定的、针对某个主题域、部门或用户分类的数据集合。这些数据需要针对用户的快速访问和数据输出进行优化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障EDW的高可用性、可扩展性和高性能。

【组成部分】

包括:驾驶舱报表系统和灵活查询以及其他应用集市系统。

1.3.1.5 应用服务层

【功能与作用】

通过对数据平台层中的数据进行适当的提炼、汇总,利用通用展现平台向用户提供包括报表服务、查询服务、决策仪表盘等相关服务。该层为用户对中央数据的访问提供各种方式的服务(C/S、B/S),从而实现访问方式的多样化和信息存取的透明化。

【组成部分】

17

银行数据仓库建设方案文件

通用展现平台主要包括的功能模块有:

第一个层次是核心模块包括:框架、引擎,核心模块作为报表集成开发环境的基础、核心和框架存在。报表集成开发环境核心功能和模块组装由核心模块统一提供,只暴露给开发人员;

第二个层次是管理模块包括:报表信息、基本管理、代理、信息推送、连接信息,管理模块为报表集成开发环境提供管理服务,它提供报表集成开发环境的用户、权限等的统一管理,管理模块也是报表集成开发环境必选模块,它的很多功能调用由核心模块提供,管理模块包括5个子模块;

第三个层次是应用模块包括:仪表盘、灵活查询、数据录入、报表、复杂报表,应用模块提供报表集成开发环境最终用户(非管理人员)的用户体验,可以和管理模块相结合有选择地灵活部署。

1.3.1.6 访问控制层

【功能与作用】

访问控制层主要包括WEB、认证、安全、门户四方面的服务。该层位于用户层和中间服务层之间,为用户层成提供HTTP服务、门户的单点登录、用户统一认证、提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。

1.3.1.7 用户层

由上面的逻辑架构图可知用户层包括各种最终用户。按照用户使用EDW系统的方式和特点,可以划分为业务分析人员、高级分析人员和管理决策人员。所有用户统一通过用户门户访问EDW系统各类应用,从而实现了EDW系统的应用界面、安全管理统一,同时用户可以对门户进行个性化定制以方便自己使用。

实际上,EDW系统还包括进行系统建设的开发人员、系统运行人员和系统管理人员,这里所指的用户层主要针对业务用户进行描述。

? 业务分析人员

主要指总行各业务部门、各分行的业务用户,如:客户经理。该类人员直接使用模块化的应用界面访问EDW系统,生成或预览预定义报表,进行相对固定的查询以及多维分析。这类用户会使用B/S和C/S两种客户端访问EDW系统。

18

银行数据仓库建设方案文件

? 高级分析人员

是指总行各业务部门、各分行的较为高级的用户。除能够执行一般业务分析人员进行的操作外,可以对指定的主题、指标进行自定义的灵活分析和比较。分析的方式包括自定义查询、自定义报表、多维旋转和穿透钻取等等。这类用户会使用B/S和C/S两种客户端访问EDW系统。

? 管理决策人员

主要包括各部门的领导、分行领导和总行领导。EDW系统为管理决策人员分配专门的系统资源,建立最为直观和方便的存取界面,为决策人员赋予最大的信息访问权限,实现决策人员对信息的自由访问。同时,EDW系统将决策人员最为关心的信息主动发布到决策人员的访问界面上,简化信息访问的方式,使得决策人员在第一时间获得经营管理的各种重要信息和指标。这类用户只会使用B/S客户端访问EDW系统。

1.3.1.8 消费数据传输通道

在数据仓库系统建立以后,会有很长一段时间旧有的报表系统和分析系统需要逐步迁移,在此期间,需要有一个消费数据传输通道来支持旧有系统的良好运转。

1.3.1.9 安全管理体系

安全管理体系主要包括以下四个方面: ? 网络安全

主要包括在不同网络层次设置不同级别的防火墙及IDS系统,同时在每一个安全层次下通过部署不同的安全原则,这完全符合XX银行的安全级别规定。 ? 操作系统安全

系统所有应用或数据库服务器均采用Unix操作系统,操作系统本身有着严密的系统安全认证与用户权限管理体系,并具备登录、审核以及资源访问的审计与跟踪。 ? 数据安全

提供各种基于数据库的安全保护机制。

19

银行数据仓库建设方案文件

? 应用安全

应用是直接面对用户的,虽然应用系统能够持续提供服务是涉及到系统安全的问题,但是因为这些问题更多的是由系统的安全问题来保证的。所以就应用级的安全策略更多的是保证对数据访问的合法性。

1.3.1.10 元数据管理体系

在机构内关于数据的信息称为“元数据(Metadata)”。清楚地区分数据库中的数据和元数据是很重要的,所谓元数据,是指关于数据的数据,即用来描述数据的类型、来源、定义、存储位置,使得可以正确地使用数据仓库。

元数据仓库(Meta Data Repository)对业务人员来说是很重要的,是业务人员与数据仓库的数据交流的传达手段。IT人员可能已经拥有许多有效的工具进行数据存取。但对业务人员,他们需要一种手段和工具来理解他们存取的数据。

在本期EDW系统的建设中,包括技术元数据和业务元数据两类,其数据源涵盖了EDW系统的各个环节,包括:数据源系统、EDW数据库、EDW逻辑数据模型、ETL系统、业务应用系统等,同时,还将涉及数据的业务含义和业务规则等相关业务文档。在架构上,元数据系统包括:元数据应用、元数据报表、元数据分析、元数据集成系统、元数据展现系统、元数据管理系统、元数据维护系统。

1.3.2 数据处理流程

各业务数据源系统通过多种方式(如:ETL工具直接从源系统获取、源系统数据批量导出)将数据获取过来,由数据落地区区进行集中管理。

后续的数据加工、转换通过ETL Server来完成,中间采取不落地的方式,将加工完毕后的数据放在数据准备区域。ETL Server 可通过 ds job,FTP,NFS 等方式从数据落地区获取数据,将处理后的结果放在数据准备区域。再将数据准备区的数据加载到数据存储区中。

根据目标系统的不同,采用灵活的方式向外提供数据,可使用ETL 工具直接向目标系统加载或者通过 FTP方式向其他目标传输。为支持其他的业务需求,将近期(30-60天)的明细数据、流水数据集中存放在数据库系统中,日常增量数据刷新数据库系统。

整个过程通过调度工具进行统一调度,集中管理,确保各项任务有序完成。

20

银行数据仓库建设方案文件

? 避免工作节点直接访问管理库,访问管理库的工作统一ETL Server来

完成,从而提高了应用部署的适应能力; ? ETL Server可以据此检测所有工作节点是否存在故障;

客户端负责采集信息发送到服务端,服务端接收信息,并写到数据库。对于每个客户端的连接,服务端fork出一个子进程处理。服务端与客户端作为daemon进程,要求能够长时间运行。应该能接受收 SIGQUIT, SIGTERM, SIGHUP 信号,完成退出并清理进程资源;

在EDW中,将由成千上万的作业来完成数据整和的功能,这些作业由于复杂度不同,运行频度不同,甚至是同一个作业,由于数据来源不同(例如不同的分行),数据规模也是相差甚远的,因此如果对所有的作业使用相同的配置文件,将对系统资源造成极大的浪费,例如一个非常简单的作业,事实只需要几秒钟的时间,却将其部署到多个节点上运行,不仅没必要,而且造成额外的网络开销和调度开销。

因此为了提高作业运行的性能,充分使用计算机群中所有节点的资源,必须采用一种合理的作业运行资源配置方案,在这种方案中,将根据作业的复杂度,数据规模,运行频度、约束条件等因素,动态地生成运行资源配置配置文件,从而使系统中的每个作业能以最优的方案运行,从而使整个系统获得最优的性能。

2.3.11 数据接口设计

数据仓库平台系统需要建立一个集成的ETL接口平台,该平台需要同时支持:打包数据文件和数据库直连两种ETL方式。各种ETL方式的通过ETL工具进行统一配置和管理,不同的接口方式由相应的接口适配器(Input Adapter)来处理,接口适配器仅处理数据/文件物理格式的转换,并不负责业务要素层面的转换,接口适配器一旦调试通过后,将不随业务元素变化(例如表字段改变)而变化。

数据接口规范用来规范本系统和各源业务系统以及本系统内部之间数据交换,使数据交换遵循一个统一的标准。由于各业务系统之间的数据标准不尽一致,因此在制订与不同业务系统的数据接口规范时,必须要涵盖如下内容:

? 数据内容

分析确定需要的数据表,以及表中的每个数据项,包括数据项的长度、类型等,明确数据表项之间相互的关系。

? 数据格式

46

银行数据仓库建设方案文件

根据接口文件类型指定文件格式,如文本文件,需描述字段变长分隔符分隔,字符数据项、日期数据项格式等。

? 编码格式

文件内容的编码格式,如ASCII码、EBCDIC码等,确定数据交换文件的解析规范或语义。

? 编码规范

说明业务系统相关的业务编码,和本系统保持统一的标准。如业务种类、网点机构的机构代码等,必须遵守统一的命名规范。

? 数据来源

数据表项来自的业务系统。数据表项和业务系统数据表项的对应关系。 ? 数据统计算法

对于各业务指标的计算方法必须有统一的公式,并且其组成要素的业务涵义必须统一。

? 外部数据接口标准

对于来自外部的数据,须经过系统预处理转换成符合标准接口的文件。 数据接口规范主要用来明确源业务系统与本系统之间以及本系统内部数据文件交换的控制和要求。规范要涵盖的内容及对数据文件交换的要求如下:

? 命名规范

数据接口文件的命名、数据文件交换存放的路径名、文件流水格式的约定等。包括了所有在数据交换过程中涉及到命名规则、以及各种格式的约定。

? 抽取周期

明确本系统和各个源业务系统之间数据抽取的频次,如每日、每周、每月、不定期等。对本系统和所有源业务系统之间的数据交换做统一安排,避免不同业务系统之间出现冲突。

? 过程监控

对数据文件的交换情况进行记录,监控和每个源业务系统数据文件的交换情况。

47

本文来源:https://www.bwwdw.com/article/3jtd.html

Top