《中国电信EDA总体规范-技术与架构分册》初稿

更新时间:2024-05-07 00:43:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

《中国电信EDA总体规范-技术与架构分

册》

2013年6月

中国电信EDA

总体规范2.0

目录

1

文档说明 .................................................................................................................. 1 1.1 1.2 1.3 1.4 1.5 1.6 2

编制说明 ............................................................................................................. 1 适用范围 ............................................................................................................. 1 内容说明 ............................................................................................................. 1 起草单位 ............................................................................................................. 1 解释权 ................................................................................................................. 1 版权 ..................................................................................................................... 1

概述 ......................................................................................... 错误!未定义书签。 2.1 2.2 2.3

现状分析 ............................................................................................................. 3 业务目标 ........................................................................... 错误!未定义书签。 技术目标 ............................................................................................................. 3

3 架构体系 ................................................................................. 错误!未定义书签。 3.1

总体架构 ........................................................................... 错误!未定义书签。

3.1.1 3.2

总体架构 .................................................................. 错误!未定义书签。

数据平台 ............................................................................................................. 4

ETL平台 .................................................................................................. 42 ODS .......................................................................... 错误!未定义书签。 EDW ......................................................................... 错误!未定义书签。

3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 3.3

大数据平台 .............................................................................................. 34

ODS与生产系统的功能定位 ................................. 错误!未定义书签。 ODS与EDW的功能定位 ....................................... 错误!未定义书签。

大数据平台与ODS、EDW的功能定位 ................ 错误!未定义书签。

数据架构 ........................................................................... 错误!未定义书签。

EDA域数据流程图 ................................................. 错误!未定义书签。 ODS数据架构 ......................................................... 错误!未定义书签。

接口数据层 ...................................................................... 错误!未定义书签。 整合数据层 ...................................................................... 错误!未定义书签。 汇总数据层 ...................................................................... 错误!未定义书签。

3.3.1 3.3.2

3.3.2.1 3.3.2.2 3.3.2.3

版权声明,保密

第I页

中国电信EDA

总体规范2.0

3.3.2.4

共享数据层 ...................................................................... 错误!未定义书签。

3.3.3 EDW数据架构 ........................................................ 错误!未定义书签。

3.3.3.1 接口数据层 ...................................................................... 错误!未定义书签。 3.3.3.2 整合数据层 ...................................................................... 错误!未定义书签。 3.3.3.3 汇总数据层 ...................................................................... 错误!未定义书签。 3.3.3.4

应用数据层 ...................................................................... 错误!未定义书签。

3.3.4 大数据平台数据架构 .............................................. 错误!未定义书签。

3.3.4.1 接口数据层 ...................................................................... 错误!未定义书签。 3.3.4.2 处理数据层 ...................................................................... 错误!未定义书签。 3.3.4.3

共享数据层 ...................................................................... 错误!未定义书签。

3.3.5 EDA两级数据交互 ................................................. 错误!未定义书签。

3.3.6

数据集市 .................................................................. 错误!未定义书签。

3.3.6.1 数据集市综述 ................................................................................................. 42 3.3.6.2 应用集市 ......................................................................................................... 45 3.3.6.3 专业集市 ......................................................................................................... 46 3.3.6.4 地域集市 ......................................................................................................... 46 3.3.6.5

基于大数据的创新集市 ................................................................................. 47

3.4 数据应用 ........................................................................... 错误!未定义书签。

3.4.1 数据展现与服务提供 .............................................. 错误!未定义书签。 3.4.2 企业数据应用视图 .................................................. 错误!未定义书签。 3.4.3

企业管理分析 .......................................................... 错误!未定义书签。

3.4.3.1 战略分析 .......................................................................... 错误!未定义书签。 3.4.3.2 预算管理 .......................................................................... 错误!未定义书签。 3.4.3.3

。。。。 .......................................................................... 错误!未定义书签。

3.4.4 企业运营分析 .......................................................... 错误!未定义书签。

3.4.4.1 竞争分析 .......................................................................... 错误!未定义书签。 3.4.4.2 客户分析 .......................................................................... 错误!未定义书签。 3.4.4.3

。。。 .............................................................................. 错误!未定义书签。

3.4.5 企业服务分析 .......................................................... 错误!未定义书签。 3.4.6 企业销售分析 .......................................................... 错误!未定义书签。 3.4.7 产品开发 .................................................................. 错误!未定义书签。

3.5

数据运营管理平台 ........................................................................................... 65

3.5.1 元数据管理 .............................................................................................. 65

版权声明,保密

第II页

中国电信EDA

总体规范2.0

3.5.1.1 业务元数据 ..................................................................................................... 65 3.5.1.2 技术元数据 ..................................................................................................... 65 3.5.1.3

元数据管理要求 ............................................................................................. 65

3.5.2 主数据管理 .............................................................................................. 65

3.5.2.1 主数据概述 ..................................................................................................... 65 3.5.2.2

主数据统一编码 ............................................................................................. 65

3.5.3 数据安全管理 .......................................................................................... 65 3.5.4

数据质量管理 .......................................................................................... 65

3.5.4.1 数据质量管理的目的 ..................................................................................... 65 3.5.4.2 数据质量管理原则 ......................................................................................... 65 3.5.4.3 数据质量管理的内容 ..................................................................................... 66 3.5.4.4

数据质量管理的方法 ..................................................................................... 66

3.5.5 统一调度管理 .......................................................................................... 66

4 专题应用 ................................................................................. 错误!未定义书签。 5

EDA与生产系统及运维要求 ................................................ 错误!未定义书签。 5.1 EDA对生产系统的数据提取要求 ................................... 错误!未定义书签。 5.2

生产系统对EDA的数据响应要求 .................................. 错误!未定义书签。

6 技术要求 ................................................................................. 错误!未定义书签。 6.1 系统平台要求 ................................................................... 错误!未定义书签。 6.2

推荐技术 ........................................................................... 错误!未定义书签。

7 部署实施策略指导 ................................................................. 错误!未定义书签。 8

附录 ...................................................................................................................... 119 8.1

主要编制人员 ................................................................................................. 119

版权声明,保密

第III页

中国电信EDA

总体规范2.0

1 文档说明

1.1 编制说明 1.2 适用范围

本规范适用于指导中国电信集团公司及下属省(市)公司进行EDA项目建设相关工作。

1.3 内容说明

本文档主要包括EDA的架构体系、重点应用支撑、数据质量管理和系统运营管理等方面内容。

1.4 起草单位

本规范的起草单位属于中国电信集团公司。

1.5 解释权

本规范的解释权属于中国电信集团公司。

1.6 版权

本规范的版权属于中国电信集团公司。

版权声明,保密

第1页 共123页

中国电信EDA

总体规范2.0

2 引言

ITSP大背景,企业环境的大背景,集约化要求等等引出全网数据共享服务中心的概念.

2.1 全网数据共享服务中心

全网数据共享服务中心的概念、架构及在itsp3.0中的定位 全网数据共享服务中心核心构成是两级EDA及全网数据交换枢纽,由此引出规范EDA建设的重要性.

版权声明,保密

第2页 共123页

中国电信EDA

总体规范2.0

2.2 本规范制定的目的和意义

围绕本规范作为总部和省EDA建设的指导规范这样一个定位,说明本规范的设计目的、功能定位、构成要素等。

3 EDA概述

3.1 现状分析

大数据时代,EDA存储不够,扩容难,非结构化数据处理能力不足,数据实时性处理能力不足 数据应用能力不足 数据基础能力不足 数据运营能力不足

3.2 技术目标

优化架构体系,支撑大数据处理(包括实时处理)与存储能力

建设数据运营管理平台,提升数据运营管理能力 ,提升数据汇聚、交互、共享与服务能力

版权声明,保密

第3页 共123页

中国电信EDA

总体规范2.0

4 EDA系统架构(国信)

中国电信 EDA 是中国电信信息化转型的战略体系(CTG-MBOSS)的重要组成部分,服务于整个中国电信企业发展战略。EDA 在整个 CTG-MBOSS 中起到对企业数据整体的规范和管控作用,其范围包括对企业所有数据的规范体系和管控体系。

EDA 是指企业实施全面的企业运营数据的管理和控制,实现数据在采集之后的分析,从企业的整体视角了解企业、客户和市场,通过数据更好地支撑企业运营。根据ITSP 3.0的目标要求,中国电信企业数据架构以数据共享为目标,做好基础数据管理,积极探索和推进大数据应用,以系统为载体,以数据管控为保障,实现企业数据共享、业务支撑和价值提升。

EDA 是由运营数据仓储(ODS)、大数据平台(BDS)、企业数据仓库(EDW)系统及承载在其上的数据展现与服务、数据应用组成,包括 EDW 、 ODS和BDS 所涉及 的ETL、元数据管理、数据存储、报表和 OLAP 以及数据挖掘等。

4.1 技术架构

EDA技术架构由数据存储与处理平台、数据展现和服务、数据应用、数据运营管理四部分组成,如下图所示。

版权声明,保密

第4页 共123页

中国电信EDA

总体规范2.0

图4-1 中国电信 EDA 技术与架构

? 数据存储与处理:由ETL平台、运营数据仓储(ODS)、大数据平台(BDS)、企

业数据仓库(EDW)和 数据集市构成,是数据应用承载的基础。

? ETL平台:为了满足对当前非结构化、海量数据的实时处理要求,在原有ETL

基础上引入了分布式ETL处理模式。ETL 平台包括数据的抽取、转换、装载的过程,为 ODS、EDW、大数据平台提供数据基础。传统ETL采用文本文件、数据库、消息服务等技术方式对传统的结构化数据进行增量或全量的采集和处理,将数据提供给ODS平台。分布式ETL通过多服务器间按照协同工作机制,将要执行的ETL流程分配在多台机器上执行,将数据提供给大数据平台。ETL 平台的数据处理过程涵盖了数据生产源系统、ODS、EDW、大数据平台、数据集市的数据流向全过程,使经过处理后的数据符合 EDA 域各层的使用需要。

? ODS:ODS的大部分数据来源于生产系统,主要采用批处理的数据处理方式,

多基于OLTP技术的SMP架构的数据存储管理,存储了短期的面向运营的准实

版权声明,保密

第5页 共123页

中国电信EDA

时结构化数据,提供统一的企业运营数据视图,支撑跨系统的生产报表、跨系统数据的批量计算、准实时运营数据查询和准实时的数据共享应用。ODS给大数据平台提供数据共享,ODS的部分数据来源于EDW的分析结果数据。ODS通过共享层将数据提供给外围系统使用,作为EDW的主要数据来源。 ? 大数据平台:为了满足移动互联网时代数据处理和分析的要求,新的EDA以

混搭架构引入了大数据技术,负责对非结构化、海量数据进行处理、整合、存储及分析应用,形成大数据平台。大数据平台的数据来源于互联网日志、信令和外部系统数据。海量结构化数据和非结构化数据采用批处理的数据处理方式,基于MPP高可扩展并行数据库架构或hadoop架构的数据存储管理方式,存储了诸如用户话单、DPI等数据信息;消息类流数据采用流处理的数据处理方式,实时处理,实时对外共享结果,一般不做存储要求。大数据平台通过hadoop等技术对海量数据进行轻度汇总,对海量的、非结构化的数据进行标准化、标签化,共享给ODS,同时使用大数据挖掘和探索手段,支撑全网大数据的创新应用。大数据平台与ODS和EDW相互补充,丰富了原有EDA的数据存储和数据应用。

? EDW:面向分析型的数据仓库,数据主要来源于ODS,ODS未整合的运营数据

直接从源系统抽取。采用批处理的数据处理方式,基于SMP架构或MPP高可扩展并行数据库架构的存储管理,存储了长期的、明细和概要的分析型信息,采用数据统计、多维分析和数据挖掘等手段,细分市场和客户,支撑市场的经营分析和决策。

? 数据集市:数据集市作为中国电信 EDA 系统的组成部分,从企业运营数据仓

储 ODS 、大数据平台和企业数据仓库EDW 抽取相关数据并进行转换和装载,并根据应用需求形成数据集合,支撑各种专业化应用,是为满足已定义的用户组或业务领域对于特定业务信息的需求而创建,较数据仓库而言,更关注在数据中构建复杂业务规则来支持功能强大的分析。数据集市包括地域集市、应用集市、专业集市、基于大数据的创新集市。在实现方式上,数据集市可

版权声明,保密

总体规范2.0

第6页 共123页

中国电信EDA

依附于三大平台进行建设,考虑到系统性能和应用效果也可以采用物理部署的模式,但是数据必须由EDA 统一提供,不允许直接和生产系统对接。

? 数据展现和数据服务:该层将数据存储与处理平台生成的数据进行封装处理后,

提供统一数据共享接口,通过固定报表、多维分析、界面集成、自助取数对数据进行展现,同时以数据服务调用的方式提供给周边系统或内部应用。

? 数据封装:利用数据封装技术按照业务需求,根据一定规律将底层数据封装

成上层服务。

? 数据展现:展现层接收用户请求,响应用户操作,并以Web页面的形式向用

户返回结果,具备基于Portlet技术与门户平台集成的能力。

? 数据服务:数据服务提供是指将EDA 经过整合、加工处理后的数据,以数据

服务调用的方式提供给周边系统或内部应用。数据服务提供主要有数据共享、服务调用和API接入服务多种技术实现手段。

? 数据应用:数据应用基于数据服务层的共享接口获取数据或通过展现工具实现数

据的直接展现。统一的数据应用平台,对内支撑企业管理分析、企业经营分析、企业服务分析、企业销售分析及产品开发;对外支撑产品化的数据服务以及数据提供。

? 企业管理分析:企业管理分析是对企业管理涉及的人、财、物等各方面进行

综合分析,为企业管理层制定企业战略及预算考核等提供决策依据,主要包括战略分析、绩效管理、预算管理、人力分析、财务分析、工程与物资分析。 ? 企业经营分析:企业运营分析是对企业在营销、销售、服务管理等方面进行

分析与支撑,包括业务发展分析、客户发展分析、营销活动策划、结算分析等。企业运营分析面向市场、营销、和策划人员日常工作的分析支撑。 ? 企业服务分析:企业服务分析是对企业在服务管理方面进行分析与支撑,包

括客户满意度分析、产品评估、服务质量分析、营销活动评估等。企业服务分析面向服务管理和服务质量的分析支撑。

? 企业销售分析:企业销售分析是对企业在销售管理方面进行分析与支撑,包

版权声明,保密

总体规范2.0

第7页 共123页

中国电信EDA

括终端销售分析、产品与套餐分析、流量热点区域分析、营销活动过程监控分析、业务收入分析等。企业销售分析是面向产品或营销活动过程的分析支撑。

? 产品开发:通过数据分析应用,发现用户的消费行为习惯、消费心理,支持

对企业的产品、网络资源、财务管理等方面进行产品优化和产品开发,使产品更适应市场需求,满足用户需求,方便企业管理。

? 产品化:是对企业内部的数据资源按需进行分析、整合、包装,形成产品,

通过统一的服务接口,对外提供数据经营。

? 数据提供:直接以数据信息形式,通过统一的服务接口,对外提供数据经营。 ? 数据运营管理:数据运营管理平台是中国电信集团在ITSP3.0规划的数据运营体

系下,所建立的面向EDA域各数据系统和支撑系统的,统一的、综合性的运营数据管理支撑平台。主要包含数据质量、数据安全、元数据管理、主数据管理和统一调度管理五个方面。

? 元数据管理:元数据是关于数据的数据,是对数据的含义、功能、来源等进

行描述,元数据管理贯穿于EDA构建、运行和维护的整个生命周期。 ? 主数据管理:主数据是指在企业生产运营过程中产生,被多个系统重复使用

的,相对稳定的核心实体数据。其特点是基于业务、长生命周期、跨系统使用。主数据的属主特性以产生主数据的系统为主。

? 数据安全管理:企业数据是企业的核心资源,数据安全管理是数据管理工作

重要组成部分,需要集中管控。

? 数据质量管理:是数据采集、传输、处理、汇总、审核、发布等各个环节的

质量的闭环管理体系。

? 统一调度管理:实现对元数据、主数据、稽核规则的变更日志、程序运行日

志的查询;实现对流程的调度配置。

总体规范2.0

版权声明,保密

第8页 共123页

中国电信EDA

总体规范2.0

4.2 数据架构

EDA数据架构是EDA整体架构设计中的关键部分,它围绕数据共享服务中心的目标,对EDA的数据体系进行科学规划和全面设计,EDA数据架构图如下所示:

EDA数据架构描述了 ODS 、EDW和大数据平台的数据分层架构,以及 ODS、EDW、大数据平台和数据集市之间的数据流向。ODS 分成接口层、整合层、汇总层和共享层,EDW 分成接口层、整合层、汇总层和应用层,大数据平台分为接口层、处理层和共享层。数据源通过ETL平台加载到ODS和大数据平台,在ODS、EDW和大数据平台中通过一系列整合、汇总后,形成各类数据集市,最终支撑各类数据应用、展现和服务。

数据源按照数据类型可以分为结构化核心数据、海量结构化数据、非结构化数据和消息类流数据。

结构化核心数据如MSS、BSS、OSS和业务平台等应用系统中的数据,通过传统ETL平台加载到ODS中, 存储在ODS的接口层,接口层的数据模型与外围系统基本保持一致,ODS整合层的数据主要来源于ODS接口层,是ODS的核心数据层,数据模型遵循集团EDM模型对数据进行整合,按照应用和主题报表的要求将ODS整合层的数据进行汇总,形成汇

版权声明,保密

第9页 共123页

中国电信EDA

总层,基于ODS中各层整合好的数据,形成共享数据层,对外提供共享数据,通过共享数据层将数据提供给EDW平台和大数据平台,提供给大数据平台的主要有用户资料类、客户资料类等数据。EDW的数据主要采集ODS整合层的数据,存储在EDW的接口层,根据企业经营分析、企业管理分析等应用要求,对数据进行整合、汇总最终形成应用集市、专业集市、地域集市等各类数据集市。同时,也允许EDW的分析结果回送给ODS,弥补ODS分析加工数据能力的不足,支撑ODS的对内对外数据支撑需求。

海量结构化数据和非结构化数据如语音详单、DPI详单等数据从源系统通过分布式ETL平台加载到大数据平台,存储在大数据平台的接口层,接口层的数据模型与外围系统基本保持一致,大数据平台的数据处理层主要对采集到的大数据平台接口层的数据和ODS提供的用户资料、客户资料等数据进行整合、汇总,最终对处理整合好的数据形成共享数据层,通过共享数据层对外提供数据共享服务,并将客户标签清单、用户标签清单等数据回送给ODS汇总层,支撑ODS的对内对外数据支撑需求。同时为了支撑移动互联网业务创新,基于大数据平台建立创新集市,如增值和移动互联网数据集市等。

消息类流数据如互联网日志,信令等通过分布式ETL平台加载到大数据平台,大数据平台对消息类流数据进行流处理实时对外共享等。

总体规范2.0

4.3 功能架构(待定)

各平台功能模块

4.4 部署架构

根据数据共享服务中心的建设要求,全网EDA体系结构分为两级,如下图所示,即集团企业数据应用(EDA)和省分公司企业数据应用(EDA)。

版权声明,保密

第10页 共123页

中国电信EDA

集团EDA模式EDWSMP/MPP架构(小型机/分布式集群/一体机)总体规范2.0

大数据平台ODSSMP架构(小型机/一体机)Hadoop/MPP/流处理架构(X86平台/小型机)数据运营管理平台E T L第一级:集团级别全网数据交换枢纽第二级:省分级别省EDA 模式A(含大数据平台)EDWSMP/MPP架构(小型机/分布式集群/一体机)省EDA 模式B(不含大数据平台)数据运营管理平台EDWSMP/MPP架构(小型机/分布式集群/一体机)大数据平台Hadoop/MPP/流处理架构(X86平台/小型机)SMP架构(小型机/一体机)ODSODSSMP架构(小型机/一体机)数据运营管理平台E T LE T L

图4-3 中国电信EDA部署架构

第一级:集团企业数据应用(EDA),在原有ODS、EDW、ETL平台的基础上,部署总部大数据平台,对ETL平台进行改造以满足非结构化海量数据处理要求。

第二级:省分企业数据应用(EDA),有两种模式,一种是含大数据平台的EDA模式,一种是不含大数据平台的EDA模式,根据集团统筹安排建设情况。

两级EDA通过全网数据交换枢纽进行数据交互。通过数据服务体系,进行数据的上传和下发工作,通过数据运营体系,进行主数据、元数据、数据安全、数据质量和统一调度等工作管理。

版权声明,保密

第11页 共123页

中国电信EDA

总体规范2.0

5 EDA数据处理与存储平台

5.1 ODS(亚联)

5.1.1 平台定位

ODS系统是中国电信EDA架构中的重要组成部分,是生产系统和EDW系统中间的数据缓冲层, 承载企业级数据模(EDM)型落地重要职责,通过数据的抽取、加载、整合等手段,对来源于生产系统(CRM、计费、销账、网厅,10000号,百事通等系统)的结构化数据进行清洗,不修改源数据,同时也从大数据平台获取轻度汇总的海量数据,提供数据整合、客户统一视图、批量计算、运营报表展示和查询统计等功能,通过数据质量管理和稽核策略,保障数据的完整性,及时性和准确性,通过共享数据层,对外围系统(包括EDW、营销、维系、代理商、佣金结算、10000号等系统)提供整合层,轻度汇总层和应用层不同层面数据,以准实时,按天,按月不同频率,有力保障应用系统对数据的需求,同时也保障了一线生产和管理人员对数据不同层面的使用和查询。

5.1.2 功能要求

ODS系统主要通过ETL处理手段,提供了数据整合,数据共享,数据应用和数据质量稽核功能,充分落地企业级数据模型(EDM),通过共享数据层,对外围系统提供数据共享。

版权声明,保密

第12页 共123页

中国电信EDA

总体规范2.0

5.1.2.1 数据整合

ODS在对企业运营数据的整合过程中能够实现以下三个统一:统一数据模型、统一数据标准、统一数据视图。ODS 承载企业数据模型(EDM),促进企业各系统数据逻辑模型的统一。ODS 中建立标准的数据编码目录,源系统数据依据标准的数据编码目录,经过整合后进入ODS 中存储,实现企业数据的标准化与统一存储。基于ODS 所存储的数据,支撑实现统一数据视图,使企业在客户、产品、资源等视角获取到的信息是一致的,提升客户、企业内部的管理人员与分析人员对系统的感知。在ODS的数据整合方面,不仅仅包含目前BSS域的数据整合,也要逐步把OSS域的数据整合进来,支撑OSS方面的数据整合,,数据共享和网络运营分析,同时,ODS-B和ODS-O的之间数据要充分共享,避免反复从源系统抽取数据和重新整合,保持数据使用的一致性。

版权声明,保密

第13页 共123页

中国电信EDA

数据整合根据不同的数据源,匹配预先定义的规则流程,在任务引擎的调度下,按照定义好的流程经过数据抽取、数据转换、数据加载、数据校验几个关键环节最终存储到ODS系统中。数据整合主要具备特点如下:

? 数据抽取

ODS从数据源系统获取数据,在实施时需要综合考虑业务需求、抽取效率、源系统代价等因素确定抽取策略,抽取策略包括抽取方式(增量、全量)、抽取时机、抽取周期等。能够满足多种不同系统平台和数据类型的数据抽取,包括各种关系型数据库系统、各种文件格式的源数据等,对于时效性要求较高的业务需求,可以通过对源系统的数据进行实时/准实时的数据同步,采取在源端建立物化视图,或者解析源系统的Redolog/Arachlog日志文件同步入库,这类接口主要应用在和CRM系统的资料同步接口,也包含OSS域的服开,激活,客调等系统,按天和按月的数据同步,尽量采用文件接口,通常应用在计费域的日详单、日账、日欠费、日余额、日缴费、日销账、月账、月欠费、月销账;10000号的投诉告障;EDW的分析汇总数据;营销的客户认领落地数据;代理商的管理数据等。

对于大数据时代的海量数据和非结构化的数据,ODS也需要和大数据平台进行数据对接,从大数据平台抽取用户行为,轻度汇总数据,ODS也把整合层的数据同步给大数据平台共享,包括客户资料数据等。同时,在数据传递过程中,增加数据的安全管控,并对接口的数据进行校验和检查,确保接口数据的完整性、及时性和正确性的要求,对于文件接口的进行常规的文件名、文件大小、记录数等校验;对于实时同步的接口,进行定期的数据比对和完善。

? 数转换

总体规范2.0

数据转换是ETL中最复杂的处理过程,主要完成了从源数据向目标数据转换的各种处理。在数据转换的过程中必须深刻的了解和认识源数据信息,识别异常数据情况,建立从源数据到目标数据的映射规则。在映射的过程中,有些信息是直接可以从源数据得到的,有些并不能从源数据直接得到,需要进行复杂的加工处理过程,包括格式和类型转换、数据翻译、数据匹配、数据聚合以及其他复杂计算等。多数情况下,数据源到ODS之间主要的转换是格式转换、数据翻译、数据匹配,常用的转换手段主要有:字段映射;映射的自

版权声明,保密

第14页 共123页

中国电信EDA

动匹配;字段的拆分;多字段的混合运算;跨异构数据库的关联;自定义函数;多数据类型支持;复杂条件过滤;时间类型的转换;对各种码表的支持;环境变量可以动态修改;记录间合并或计算;记录拆分;行、列变换;排序;统计;支持度量等常用的转换函数;抽取远程数据;增量抽取的处理方式;在转换过程中支持数据比较;数据清洗及标准化;按行、按列的分组聚合等;在转换过程中,对于不符合转换规则的异常数据,进行数据轨迹的保留,分类,分析,不定期的进行数据反补,对于无法反补的情况下,把异常数据抛出来,提交源系统进行异常数据修正,再通过正常通道,同步到ODS系统.同时,ODS通过增量的时间戳,把对应的数据同步到外围系统,确保整个环节的数据完整性、一致性和准确性。ODS的数据转换,也要考虑大数据平台过来的用户行为数据的整合和轻度汇总数据的多次汇总。

? 数据加载

总体规范2.0

数据加载是指将抽取转换后的数据加载到ODS中,包括数据行加载和数据块加载。在综合考虑效率和业务实现等因素基础上确定数据加载周期和数据追加策略。数据的追加策略根据数据的抽取策略以及业务规则确定,主要有三种类型:直接追加、全部覆盖、更新追加。

? 直接追加:是指每次加载时直接将数据追加到目的表,以流水数据为主。比如清单、帐务等数据;

? 全部覆盖:对于抽取数据本身已包括了数据的当前和所有历史状况,对目标表采用全部覆盖方式。比如规格表、定义表、维度表等数据量较小的数据;

? 更新追加:对于需要连续记录业务的状态变化,用当前的最新状态同历史状态数据进行对比的情况采用更新追加的方式。比如客户、用户等数据。

? 数据校验

数据校验贯彻在各个环节,包括接口层,整合层,应用层,汇总层,在每个环节, 都需要嵌入数据校验,确保在每个层面的数据都能闭环收敛,确保数据完整性、 一致性和准确性。

版权声明,保密

第15页 共123页

中国电信EDA

总体规范2.0

5.1.2.2 数据存储

数据存储完成ODS系统中各种数据的存储。存储数据按照功能的划分,主要分成接口数据层、整合数据层和汇总数据层。数据首先由源系统被抽取到接口数据层,在该层进行转换处理之后进入整合数据层,整合层数据经过整合及计算操作存储到汇总层。由于几个数据层说承担的功能和作用不尽相同,所以对各个层的存储策略和设计也所有差异。接口层的模型设计以短周期存储为主,作为临时缓冲区,需要支撑数据的快速载入和清理,以主键为主,尽量减少索引等额外开销,如果需要在接口层存储源系统的同构全量数据的, 尽量通过分区等策略处理,对于订单等流水数据制定对应的存量策略,比如1年周期的数据,定期清理历史数据,确保空间的高效使用。整合数据层中的数据模型遵循中国电信企业数据模型,是ODS的核心数据层,也是对外提供共享的主要数据层,需要在模型设计上进行规范化设计,减少不必要的数据冗余,要充分考虑逐条整合和批量整合高效性,高并发查询的快速响应,能够满足在大数据量、大并发量的快速数据操作,支持数据行级锁、多CPU并发、多服务器并行的要求。能够满足准实时数据的快速增删改查的要求,同时在物理数据存储策略要确保数据的安全性,避免由于硬件的损坏造成数据的丢失而带来业务的中断。对历史和过期的数据要制定数据清理的策略,减少整合层表级数据量过大和冗余,提高单表的处理性能,同时减少和节约存储空间,提升性能。在策略上主要关注以下几点

? 模型部分

1. 接口数据层数据模型可以采用平面表,表结构可以根据需要做无索引、无主键、无外

键设计;

2. 整合数据层数据模型应采用第三范式的模型设计,考虑到ODS的特点和需要,数据

模型可进行适度地不规范化处理;

3. 汇总数据层模型设计可以采用宽表、星型模型,也可以进行适度地不规范化处理。

? 存储部分

1. 数据库采用表分区技术,提高数据的访问性能和可操作性;

版权声明,保密

第16页 共123页

中国电信EDA

2. 使用集群技术/并行处理技术,提高数据操作的性能、稳定性和可扩展性; 3. 提供数据库的自动诊断和调优功能,提供各种优化建议:内存参数、表结构、索引、

SQL语句等;

4. 数据库支持在线备份恢复机制,支持灾备解决方案,实现同城或异地数据保护。

总体规范2.0

5.1.2.3 数据共享

ODS系统对外提供数据共享,共享的信息尽可能从整合数据层获取,通过数据文件、数据库物理共享、接口表、视图、数据高级复制、Webservice等技术手段,以不同的频率要求,对外提供共享数据服务,系统包括EDW、营销、维系、代理商、百事通、10000号等系统。

数据共享主要需要关注以下几点:

1. 支持数据视图、FTP文件和Web服务等方式对外提供接口服务;

2. 支持高并发性访问,通过连接池、负载均衡、集群等技术提高访问的并发性; 3. 批量的数据导出作业,根据不用的业务需求,以错峰和优先级高低的,避开ODS系统

处理的繁忙时段,充分利用系统资源;减少由于同一时间段的作业,引起系统的堵塞和性能下降;

4. FTP的文件传递,FTP文件单文件不超过2GB,超过2GB时分割成多个文件; 5. 对大量并发的准实时批量数据共享操作可以按资源占用和所需时间进行合理调度。

5.1.2.4 数据应用

ODS系统承载和整合了企业细粒度运营数据,支撑一线的生产和管理人员数据分析应用需求,主要提供了以下几种数据应用

版权声明,保密

第17页 共123页

中国电信EDA

? 批量计算

? 批量计算主要包括客户积分计算,客户信用度计算,客户品牌标签计算等 ? 报表统计

? 主要针对及时性要求较高的准实时报表,比如主数据发展量报表,主数据受理

量报表等 ? 客户统一视图

? 以统一的口径,把客户端基本信息,用户信息,受理信息,客户落地信息,客

户接触信息等,通过客户资料查询功能模块整合,在功能展现上,打包成一个统一的展现视图,方便操作与共享。

总体规范2.0

5.1.2.5 数据稽核

通过建立稽核点,配置稽核任务,设定告警阀值,收集和分析稽核结果,检查和稽核接口层,整合层,汇总层的数据质量,对接口层的数据质量问题,反馈给源系统进行处理,对整合层和汇总的数据质量问题,系统内部及时的进行修正和处理,通过不断的数据质量闭环处理,从而提升企业数据质量。主要从几个层面对数据进行稽核

? 接口层

? 主要体现及时性、完整性、一致性。

? 确保ETL加载过程及时,准确,完整、保持与源系统数据一致的原则、做到

加载及时,加载目标准确无误。加载对象与预定内容一致,加载内容无缺失。

? 整合层

? 主要体现准确性、及时性、一致性。

? 确保对数据加工过程质量的可控,验证处理环节操作的准确性和数据生成的

及时性,验证关键指标的准确性和一致性

? 汇总层

? 主要体现逻辑性、完整性。

版权声明,保密

第18页 共123页

中国电信EDA

? 确保数据汇总结果之间的逻辑平衡、包括各汇总层表量收平衡、发展量平衡、

到达数平衡等,同时保证汇总层数据展示完整性,稽核项目缺失

总体规范2.0

5.1.3 模型设计

? 模型设计需要考虑高速批量加载及高并发查询的快速响应;

? 模型能够支持不同粒度的查询与报表需求,综合考虑业务需要,具备适应性; ? 通过数据模型的规范化设计,减少不必要的数据冗余; ? 模型具有良好的扩展能力。

5.1.3.1

数据类型 客户产品 档案资料 档案资料 归档数据 详单 存储策略

保持周期 存储内容 包括客户资料、账户资料、用户资料、营销套餐业务受理长久保存 订单资料、业务受理订单产品特性资料、业务受理订单资料、营销套餐业务受理细项订单资料、子产品订单历史表 定期清理 归档级别的数据库,可以认为是在近期不太可能被经常查询访问到的数据,往往指18个月以上的业务数据; 1+1(月) 包括语音业务,数据业务,增值业务等 以月会单位进行数据整合处理,包括月账单,月欠费,月销账记录等等 按照日期、地区、产品、销售品、渠道等维度对运营数据进行计算、汇总后生成的数据 配置数据和定义表 账单 6+1(月) 汇总数据 参数定义 12+1(月) 长久保存 版权声明,保密

第19页 共123页

中国电信EDA

总体规范2.0

5.1.3.2

接口数据层

模型设计

接口数据层存储的是由ODS从源系统采集的数据,其主要特点如下:

1) 接口数据层存储ODS采集的外围接口数据,如CRM、计费、销账、10000号、百

事通、服开、激活、客调、资源、GIS等系统;

2) 接口数据层的数据模型,如果是同构模式的,与外围系统基本保持一致,如果是

源系统经过数据关联抽取出来作为临时加载使用,模型可以根据实际业务定义; 3) 接口数据层的数据与外系统保持实时/准实时同步/按天/按月数据同步,对于有

实时要求的数据,应尽可能提高数据的实时性。按天,按月的数据,在模型设计过程中,要考虑时间戳,加载状态等关键信息。

4) 和大数据平台的对接,要考虑大数据平台的模型设计特点,保持高效同步。 整合数据层

整合数据层存储是经过数据清洗、转换、整合后的运营数据,是ODS的核心数据层,其主要特点如下:

1) 整合数据层是ODS存储数据的核心层;

2) 整合数据层的数据原则上是经过统一编码转换后的数据,可作为企业数据标准指

导外围系统逐步统一数据格式;

3) 数据模型遵循集团EDM模型,按照3NF模式落实具有物理特征的EDM逻辑模型。 汇总数据层

汇总数据层是针对ODS支撑的跨系统生产报表等应用需要,根据主题的维度形成的企业统计、汇总数据,其存储的数据主要特点如下:

1) 根据主题报表加工需要,形成汇总数据;

版权声明,保密

第20页 共123页

中国电信EDA

2) 结合应用的要求,按照日期、地区、产品、销售品、渠道等维度对运营数据进行

计算、汇总后生成的数据;

3) 可基于原有汇总数据基础上,根据需要继续汇总,形成多级汇总数据 共享数据层

共享数据层是基于ODS中各层整合好的数据,对外提供数据共享,其主要特点如下: 1) 共享数据层统一对外系统提供共享服务;

2) 对各系统数据共享的信息尽可能从整合数据层获取。 优化处理

ODS系统是一个以数据处理为核心的系统,大量的数据时刻处于动态变化之中。尤其是当前处理准实时的资料数据,对数据量大,时效性要求高,如何使这些海量数据处于最优的存储状态,能够快速响应多种应用需求,并且尽可能少占用系统资源,是数据优化工作要重点解决的问题。

总体规范2.0

5.1.3.2.1.1 模型优化 在源系统数据发生改变之后,或者当前数据模型无法很好对各种应用进行支撑时,应该启用数据模型优化流程,对数据模型进行修正。 1. 数据分区或索引

通过索引或分区技术,避免对大数据量表的全表扫描。

5.1.3.2.1.2 处理优化 数据处理任务的优化,很大程度上依赖于对SQL语句的优化。SQL执行性能对ODS数据库的性能影响很大,必须形成一个长期的SQL监控和优化机制:

? 监控数据库,捕获引起特定性能问题的应用对应的 SQL 语句,对其进行具有针对

版权声明,保密

第21页 共123页

本文来源:https://www.bwwdw.com/article/hn5g.html

Top