东方通ETL工具软件TI-ETLv2产品白皮书全解

更新时间:2023-08-07 07:37:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书T ongT ech®

TI-ETL v2

产品白皮书

北京东方通科技公司

2015年

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

目录

1 前言 (1)

2 为什么要用ETL (1)

2.1 业务需求 (1)

2.2 IT需求 (2)

2.3 IT与业务一致性要求 (2)

3 TI-ETL v2简介 (3)

3.1 产品组成结构 (3)

3.1.1 集成开发工具 (4)

3.1.2 服务器 (5)

3.1.3 资源库 (5)

3.1.4 统一管理平台 (6)

3.2 产品结构关系 (7)

3.3 转换流程和任务流程 (8)

3.3.1 转换流程 (8)

3.3.2 任务流程 (9)

4 主要功能和特点 (10)

4.1 大数据适配 (10)

4.2 强健的ETL引擎 (10)

4.3 丰富的系统适配 (11)

4.4 资源统一存储 (11)

4.5 丰富的处理组件 (11)

4.6 多种数据抽取模式 (11)

4.7 图形化操作/调试/预览能力 (11)

4.8 高效数据处理 (12)

4.9 异常恢复和数据一致性 (12)

4.10 强大的监控管理功能 (12)

4.11 插件式组件管理和可扩展性 (12)

4.12 国产环境支持 (13)

5 成功案例 (13)

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

1

1 前言

随着IT 应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存在和发展。

目前,虽然各行业IT 发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段,业务系统也经过了几年的运转,积累了不同量级的数据资源。但因早起IT 业务系统的很少跨部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值无法充分发挥。

此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用的数据也就具有不确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变动,一旦无法借助某些手段适应变化,整个应用和数据体系均有较大可能不得不随之修改。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,通过应用间的数据有效流通和流通的管理从而达到集成,主要解决数据的分布性、异构性、有效性和及时性的问题。此外,数据集成是个长期不断持续的过程,需要有易用的工具、长期可靠的运行环境、全面有效的监控管理共同支撑,而非仅通过工具可以一次性解决的。

ETL 是数据集成领域的落地技术,区别与传统数据交换,ETL 在可完成基本数据交换(抽取、传输、装载)的前提下,对数据的转换(即数据的按需加工处理)提供更易用和更强大的支持,使数据在不同业务之间流动的同时,各业务获取到的数据确实是可有准确、及时、有效应用的。

TI-ETL 是从传统数据交换产品继续发展的产物,有着多年的数据集成领域产品研制的积淀,已在大交通(海/陆/空)、大政府、国防工业、企业等行业核心系统中成功应用,辅助众多行业和用户逐渐发挥出了数据的价值,提升了IT 支撑业务的有效性。

2 为什么要用ETL

2.1 业务需求

IT 建设随业务发展,业务过程以数据贯穿,即业务有效性的基础是数据,且有效性又包含可获得性、及时性、准确性和一致性。在信息化早起,因信息系统较少、业务关系复杂度较低,对数据关注度也较低。随着各单位自身的发展,内部组织机构、多级组织机构建设愈发全

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

2

面,业务关系也愈发复杂,各内部组织以及跨不同单位之间均会因为业务关联产生数据有效关联、互用的需求。

例如单位内人力作为人资管理的职能部门,新人入职、人员在部门间调动、人员岗位晋升等人员变动情况会影响向财务、档案、信息管理等多个部门的业务,包括工资涨降、档案归档、固定资产关联等等,即人资信息发生变化时需要其它同样存储了该信息的业务部门也能够自动完成信息变更。

例如部委需要从各下级委办局汇总数据,各委办局业务系统可能是分别由不同厂商建设,虽然是处理同样的业务,但业务系统存储数据的格式和方式不同。以数据项“部门名称”为例,有的业务系统存储是的汉字,也的存储的可能是数字编码,此时虽然数据都能汇总到一起,但数据却无法合并,即使汇总后也可能无法支撑业务。

2.2 IT 需求

数据大多以数据库、文件为存储载体,数据库和文件又存在多个品牌和版本,所以业务数据往往是分散在不同品牌、版本的数据库和文件中,业务系统间能够按需的互用数据则需要通过IT 手段实现对不同数据源的按需适配、按需采集、按需处理、按需装载以及通过图形化界面操作定义数据间的关系和处理逻辑,实现一次定义长期有效执行,同时提供全局的可视化监控管理,能够随时掌握业务间数据交互的有效性。

2.3 IT 与业务一致性要求

“按需”是业务诉求,对应IT 则包括了采集、加工处理、装载、监控、运维、管理等技术要求,以满足业务层面对可获得性、及时性、准确性、一致性的需求,多以ETL 产品和技术实现IT 支撑:

(1) ETL 提供多种数据源适配组件,可与多种主流数据库、文件、通信协议进行对接,保

障采集的全面适配,提供高可获得性。

(2) ETL 提供触发器、时间、CDC 等多种数据采集模式,可根据业务对及时性的定义以及

业务数据存储的现状选择不同模式,并且提供并行等高效处理机制,提供高及时性。

(3) ETL 提供丰富的数据加工处理组件达到100+,且可根据业务规则灵活拼接处理流程,

提供高准确性和高一致性。

(4) ETL 提供基于Web 的监控管理中心,在满足核心业务需求的同时提供易用、可视的运

维、监控、管理、监视的统一管理能力。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

3

3 TI-ETL v2简介

东方通数据集成产品TI-ETL ,提供对企业数据的集成处理功能。通过TI-ETL 产品,用户可以从不同结构的数据源中抽取数据(Extract ),对数据进行复杂的加工处理

(Transform ),最后将数据加载到各种存储结构中(Load )。例如实现从多个异构的数据源(不同数据库、结构化文件等)抽取数据,并加工成统一的数据格式,最后加载到数据仓库中,供商业智能(Business Intelligent ,BI )等应用使用。

TI-ETL 提供一个简单易用的开发、管理工具,提供覆盖从数据集成逻辑的设计、开发、调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工具。通过TI-ETL 可以实现对数据集成流程的开发和部署;通过监控和日志功能,可以实现对数据集成的运行过程进行实时监视,对集成流程历史数据进行分析。

TI-ETL 提供了一个强健、高效的数据处理引擎,支撑各种复杂的数据转换流程、任务调度流程的高效运行。引擎采取异步并行处理的技术,实现流程中的每个组件多线程并行高效处理;支持集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,从而将转换的工作分摊到多台服务器上,从而提高TIETL 的数据处理效率。

TI-ETL 基于Java 技术和标准数据库接口(JDBC 、ODBC 等),支持部署在各种主流操作系统和国产操作系统上,支持与各种主流数据库、开源数据库、国产数据库的接入,支持对各种结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互。

TI-ETL 提供大量的任务组件和转换组件,如多源的数据合并、数据的路由、数据行列转换、字典表查询、定时重启、循环调度、流程告警等,用户可以通过拖拽方式快速完成各种复杂的数据集成需求和集成的调度控制,无需人工编码,快速构建数据集成应用。

TI-ETL 提供Web 形式的统一管理平台,用于将分布式网络环境中部署的TI-ETL 服务器运行实例及运行在TI-ETL 服务内的任务流程集中统一管理监控。提供功能级和数据集的权限管理,可定义的错误告警机制,自定义面板等。 同时管理平台提供丰富的管理Rest API 接口和方便的管理扩展机制,方便客户集成统一管理平台并扩展自己的插件集成到平台中。

3.1 产品组成结构

TI-ETL 产品架构由集成开发工具TI-ETL Studio 、TI-ETL 服务器、资源库、统一管理平台四大核心部分组成,如下图所示。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

4

图:TI-ETL v2产品组成结构

3.1.1 集成开发工具

TI-ETL Studio 集成开发工具是一个集开发、调试、配置、部署、执行、监控、日志、管理等功能于一体的平台。通过该平台实现从数据集成需求到实现的快速转化,并实现对整个生命周期的管理。

开发/调试

TI-ETL Studio 提供大量的任务组件和转化组件,通过这些组件,以图形化的方式,实现数据集成流程的快速编排。

TI-ETL Studio 还提供了功能强大的调试预览功能,可以在开发过程中实现数据行级别的调试和预览,跟踪和观察每一行数据经过数据集成流程中每一个转化组件进行加工处理的结果。

通过集成开发工具开发调试完成的数据集成流程保存到资源库中统一存储管理。

远程管理

TI-ETL Studio 通过ETL 服务器的远程接口,实现对服务器的管理。包括数据集成流程的分布式部署、远程执行、对执行状态的实时监控、对执行日志进行查看和分析。

TI-ETL Studio 的监控管理功能可以对运行中的流程执行暂停、开始、停止、解部署等控制,同时还可以对数据处理状态进行实时监控,包括每个组件处理的记录数、过滤的记录数,并且可以得到每个组件处理数据的性能指标和整个集成流程的性能指标。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

5

3.1.2 服务器

TI-ETL 服务器是一个TI-ETL 的逻辑节点,包含对数据集成流程的执行能力,并通过HTTP 协议对外开放对服务器的管理接口。

E TL 引擎

TI-ETL 服务器包含两个执行引擎:任务引擎和转换引擎,分别实现对任务调度管理的任务流程和完成对实际数据抽取、加工处理、加载的转换流程的执行。

在TI-ETL 服务器启动时,可以检查部署在该节点上的数据集成流程,并执行配置为“自动重启动”的流程,其他非自动重启动的流程需要手工启动。

在TI-ETL 数据流程中,数据是以行为单位进行处理,如下图所示,TI-ETL 通过两个对象描述一个数据行:数据对象和元信息对象。数据对象实际的行数据,由一个或多个数据列(字段)组成;元信息对象用于描述数据对象,包括数据对象中每个列(字段)的类型、长度、格式等。

监控管理接口

TI-ETL 服务器还提供了对运行时的监控和管理功能,这些功能通过Java 、HTTP 、REST 等多种封装形式对外开放。通过这些接口,第三方应用可以将监控管理功能集成到自己的管理控制台中进行统一监控管理,实现对TI-ETL 的远程管理,如流程部署、流程控制、转换监控、日志查看等功能。

认证授权

TI-ETL 服务器提供了完善的认证授权机制,只有通过认证和授权的用户,才可以通过监控管理接口实现对服务器的管理和监控。

3.1.3 资源库

TI-ETL 资源库用于持久化存储TI-ETL 的元数据,包括ETL 服务器的配置信息、任务流程信息、转换流程信息、基础资源信息(如数据库连接)等。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

6

TI-ETL 提供基于关系型数据库和文件系统两种类型的资源库。一般文件系统资源库为本地库,在开发阶段使用;基于关系型数据库的资源库为共享库,可以作为开发库和生产库使用。

TI-ETL Studio 可以连接多个资源库,在数据集成的开发调试阶段,可以将任务流程、转换流程和其他资源存储在开发库中。而对于已经完成开发调试,进入发布阶段的流程,可以方便的导入到生产库。

TI-ETL 服务器也可以配置一个或多个资源库,并可以根据部署描述符从资源库中获取实际的流程信息,根据这些信息实例化实际运行的集成流程。

资源库的使用不仅可以方便数据集成流程的开发和管理,还可以有效提高数据集成流程的部署效率。

3.1.4 统一管理平台

TI-ETL 统一管理平台,用于将分布式网络环境中部署的TI-ETL 服务器运行实例集中统一管理。

统一管理平台,提供对服务器、部署在服务器里的任务流程、转换流程的运行状态、运行日志、执行性能进行查看,远程的启动、停止、暂停、恢复等操作;提供统一的权限管理功能,包括用户、组织机构、角色的定义,以及从功能级、数据级等对用户进行细粒度的授权;提供错误告警功能,允许用户自定义告警规则,支持从告警对象、告警类型、告警级别、告警信息内容等信息中提取关键字定义接受规则、拒绝规则,只有符合规则的告警信息才通知用户,并支持用户自定义告警方式,默认为邮件通知;提供对服务器所在物理机器的CPU 、内存、硬盘资源、网络IO 等性能指标进行实时监控。

统一管理平台提供对分布式环境下交换拓扑的管理,可对方便直观的以拓扑形式来管理交换节点以及数据交换链路。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

7

统一管理平台,提供自定义面板功能,允许用户将自己关注的功能、监控对象等定义在一个页面上集中展示,并支持将自定义的面板设置为平台主页,每次登录时直接进入到该面板,非常方便管理人员。默认提供ETL 监控概览面版,可以对用户关注的对象资源(服务器、任务、转换等)集中配置到一个视图中集中监控,如下图:

统一管理平台提供基于OSGI 技术的插件管理功能,非常方便地安装和卸载已有的功能插件,同时提供插件开发机制和规范,方便用户扩展开发自己的插件并集成到平台中,集中管理自己的应用。

3.2 产品结构关系

TI-ETL 四大组成部分的关系如下图所示。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

8

使用TI-ETL 的具体开发步骤如下:

(1) 开发人员使用TI-ETL 的集成开发工具,进行流程的开发和调试工作;

(2) 开发调试完成的流程所有相关信息,统一存储到TI-ETL 资源库中,作为团队资源共

享及运行时引用;

(3) 开发调试完成的流程ID 信息(流程引用信息),部署到TI-ETL 服务器上;运行时,

根据流程ID 信息从TI-ETL 资源库中获取流程配置信息;

(4) 管理人员使用TI-ETL 的集成开发工具提供的监控功能,或者通过统一管理平台、或

者直接使用监控管理接口,从TI-ETL 服务器中获取流程监控信息,或者远程控制服

务器、流程的运行状态。

3.3 转换流程和任务流程

TI-ETL 通过转换流程、任务流程这两种流程配合,可以完成不同系统间的复杂的数据整合工作。

3.3.1 转换流程

转换流程负责完成数据集成过程中的数据抽取、转换、加载工作,转换流程由多个转换组件编排而成。转换组件是转换流程的最小处理单元,每个转换组件完成一个特殊的数据处理任务,多个转换组件组成一个转换流程。正是因为TI-ETL 有丰富的转换组件,使得TI-ETL 具备高水准的数据加工处理能力。

TI-ETL 提供的转换组件如下图所示:

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

9

下图给出了一个转换流程的示例,它是将不同的转换组件编排在一起,完成了增量数据获取、数据内容判断、过滤、错误数据处理等一系列的数据加工过程。

3.3.2 任务流程

任务流程负责整个数据集成过程的调度和管理,如定时执行、周期执行、告警等。任务流程一般由转换流程组成,从这一点上讲,也可以把任务流程看作转换流程的调度者,可以对多个转换流程和其他任务流程(子流程)进行流程编排。当然,任务流程也可以由多个任务组件编排而成。任务组件就是任务流程的最小处理单元,如开始组件负责启动任务流程,可以设定任务流程的执行方式,如一次性任务,定时启动的任务,循环性的任务等。

TI-ETL 提供的任务组件如下图所示:

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

10

下图给出了一个任务流程示例,它定义了一个任务的启动方式,然后要查看文件目录是否存在文件,如果不为空,调度转换流程完成相应的数据加工工作,如果出错,可以通过邮件任务组件发邮件通知维护人员,如果正常就调用其他任务流程的过程。

4 主要功能和特点

4.1 大数据适配

提供HBase 的输入/输出转换组件,支持与非关系型数据库HBase 进行数据交互。

提供Hadoop HDFS 文件拷贝的任务组件,支持复制文件到HDFS 和复制HDFS 文件到本地。 可连接的数据库类型支持Hadoop Hive ,SQL 查询组件支持编写Hive SQL 进行数据查询。

4.2 强健的ETL 引擎

提供任务引擎和转换引擎,支撑各种复杂的数据转换流程、任务调度流程的高效运行,为大块、大批量、异构的数据的整合提供坚实保障。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

11

4.3 丰富的系统适配

基于标准的JDBC 、ODBC 接口,实现对各种主流数据库系统的支持。如Oracle 、DB2、SQL Server 、Sybase 、InfoMix 等主流数据库,MySQL 、PostgreSQL 等开源数据库,达梦、汉高、神通、GBase8t 、KingBase 等国产数据库。

提供丰富的数据文件抽取和加载组件,支持包括普通文本、CSV 、XML 、Excel 等多种格式的文件。

支持HTTP 、JMS 、FTP 、Web Services 等协议和其他应用系统进行交互。

4.4 资源统一存储

资源库为TI-ETL 的元数据提供了统一的存储机制,并对元数据提供各种管理功能,同时资源库还为TI-ETL 的分布式部署提供支撑。

4.5 丰富的处理组件

TI-ETL 内置大量的任务组件和转换组件,用户可以通过拖拽的方式快速完成各种复杂数据集成需求和集成的调度控制。提供的转换组件覆盖数据映射、数据丰富、数据计算、数据验证、数据排序、数据合并、数据拆分、数据生成、数据去重、数据分组、行列转换等复杂处理,提供的任务组件涵盖定时调度、周期循环调度等调度模式组件、以及数据处理的一些前置、后置检查操作等。

4.6 多种数据抽取模式

支持各种数据抽取模式,如全量同步、增量同步CDC (基于触发器、基于时间戳、全表比对、基于数据库日志分析)、单向同步、双向同步、文件目录同步等。

基于数据库日志分析的增量抽取支持数据库:Oracle ,SqlServer2008,Mysql5。

4.7 图形化操作/调试/预览能力

通过TI-ETL 内置的大量组件和TI-ETL Studio 的可视化图形界面,使用人员无需编码,既可以灵活、方便地定制出各种数据集成流程,又能够减少手工代码的错误,还可以利用调试预览及时发现潜在错误,提升集成质量,并能对ETL 服务器和资源库进行管理,全面提高集成速度。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

12

4.8 高效数据处理

TI-ETL 采用异步并行处理的方式实现数据的高效处理,数据在TI-ETL 中类似于流水线上的产品,逐行流经流程中的每个组件,每经过一个组件就被加工成一个既定格式的中间状态。数据经过一个组件的处理后被迅速交给下一个组件处理,同时当前的组件已经开始处理新的数据。

TI-ETL 提供集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,从而将转换的工作分摊到多台服务器上,提高TI-ETL 的数据处理效率。

在某国产一体机硬件环境下,TI-ETL 的处理效率达到4.5+万条/秒。

4.9 异常恢复和数据一致性

任务流程提供多个调度机制和异常恢复机制,在异常后,支持自动和手动恢复。异常恢复可以保证恢复的流程从异常点开始重新同步,保证数据的最终完整性和一致性。

4.10 强大的监控管理功能

提供基于JS+REST 技术规范的前端界面和后台数据提供相分离的统一管理平台,界面风格符合扁平化设计潮流。

提供对分布式网络环境中部署的TI-ETL 服务器运行实例集中统一管理,包括对服务器、流程的运行状态、运行日志、执行性能的查看,以及远程的启动、停止、暂停、恢复等管理操作,支持统一的权限管理配置、错误告警等功能。

提供插件管理机制,方便用户安装、卸载已有的功能插件,允许用户自定义自己的功能插件,并集成到统一管理平台中。提供自定义面板功能,方便用户在一个视图中集中展示自己关注的内容。

提供Java 、HTTP 、REST 等多种封装形式的监控管理接口,方便用户快速将监控管理功能集成到自己的平台中。

4.11 插件式组件管理和可扩展性

提供插件式的组件管理机制,对于特殊的场景,可以方便的进行扩展开发,如客户自定义结构的文本进行转换组件的定制开发、专有的应用系统进行适配器的定制开发等,并以插件的方式集成到TI-ETL 中使用。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

13

4.12 国产环境支持

TI-ETL 的图形化集成开发工具、服务器、资源库和统一管理平台均支持国产中标麒麟操作系统和国产龙芯、飞腾芯片。

5 成功案例

全国32个省份通过京云万峰和清华同方两家公司的直报系统进行采集数据,将企业填报的数据存储到各省的直报系统中,然后再同步到国家的企业直报系统中。虽然京云万峰和清华同方开发的“企业一套表”系统都遵循了“企业一套表”制度,但在具体实现中数据存储格式、标识字段、元数据设计等都不一致,京云万峰和清华同方的两套“企业一套表”系统均无对方系统采集的业务数据,从而专业司无法直接统计汇总全国的企业信息。因此,需要在国家局节点以数据交换同步的方式将清华同方统和京云万峰采集的70万家企业的数据同步到对方数据库中,保证国家专业司可以汇总全国的数据。

“企业一套表”制度包括近300+张报表,涉及2000多个定义完全不同的指标字段、变长和定长二维表的不同存储格式、关联查询、条件判断、行转列、列转行等多种复杂处理要求。

在业务上需要考虑多个报告期的不同指标、不同报表不同处理需求、同一指标不同报表不同定义等需求,并通过大量数据关联查询、判断、行转列、列转行等复杂处理实现数据的同步。

东方通ETL工具软件TI-ETLv2产品白皮书全解

TI-ETL v2 产品白皮书

14

快速集成

TI-ETL 内置大量的任务组件和转换组件,可以通过拖拽的方式快速完成各种复杂数据集成需求和集成的调度控制,快速完成由于统计报表指标变化带来的处理流程的变更。

高效数据处理

TI-ETL 采用并行处理的方式实现数据的高效处理,保证了从数据上报完成到各专业司进行国家数据统计汇总中间1-2天时间内完成数据的同步的繁重任务。

多种同步模式

TI-ETL 支持各种数据抽取模式,如全量同步、增量同步(触发器、CDC )、双向同步等。

本文来源:https://www.bwwdw.com/article/ys9j.html

Top