数据迁移

更新时间:2024-05-25 19:51:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章 项目合理化建议

1.1 项目数据迁移

1.1.1 数据迁移内容

根据现有业务系统基本情况,在进行数据迁移时根据各数据类型进行分类移植。

药品注册审评数据

该类信息包含现有的业务系统主要为《药品注册省局受理系统》,《药品注册审批系统》等系统。

该类数据迁移主要内容包括药品及药包材的注册、再注册、补充注册的申请、审评过程、审评结果果等数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

临床研究数据

该类信息包含现有的业务系统主要为临床申报数据。

该类数据迁移主要内容包括药品临床研究管理中的申请、审评过程、审评结果、研究过程等数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

药品生产企业认证检查数据

该类信息包含现有的业务系统主要为《安监司生产许可证管理系统》。 该类数据迁移主要内容包括药品生产企业开办、变更、换证的申请信息、审批过程信息、审批结果信息等数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

药品经营企业认证检查数据

该类信息包含现有的业务系统主要为《药品经营企业管理系统》。 该类数据迁移主要内容包括药品经营企业开办、变更、换证的申请信息、审批过程信息、审批结果信息数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

医疗机构制剂审评数据

该类信息包含现有的业务系统主要为《医疗器械审批系统》。

该类数据迁移主要内容包括境内第三类医疗器械首次注册、再次注册、变更及境外医疗器械重新注册及变更的申请信息、审批过程信息、审批结果信息数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

企业行政审批申请数据

该类信息包含现有的业务系统主要为《国家局统一受理系统》。

该类数据迁移主要内容包括国家局统一受理事项的中的各类申请数据与形式审查数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

1.1.2 数据迁移方案

(1)标准代码库的创建

现有的多套系统以及新系统由于开发的时间和开发商不一样,使得应用的一些代码可能存在不同。因此在数据整合过程中“转换”的重要一个步骤是代码的转换。所以需要在整合之前先汇总各个业务部门的代码信息,然后整理成一个本系统标准的代码库。

(2)数据的抽取转储

为了便于后继步骤的进行,需要先把数据从原系统的数据库和数据文件中抽取到Oracle数据库的转储空间中。

(3)数据的清洗

数据清洗的工作就是从抽取出来的业务数据中找出问题数据,并把这些问题数据标注问题原因,转移到问题数据库中。数据的清洗在两个步骤中进行:

1、在数据整合进入新系统数据库的过程中,将错误数据过滤并转移到问题库中。这一步工作主要是对错误判断比较简单,同时错误比较严重的数据进行。

2、数据转换整合完成后,对新系统数据库进行校验,并记录到问题数据库中。这一部分功能的实现可以在数据审查章节中详细描述。

(4)数据转换

对与新系统设计不一致的数据进行转换;具包括以下内容:

1、异构数据库的转换:即把SQL Server数据库数据转换到Oracle数据库中。 2、数据格式规范化转换:对源数据中的不同数据格式转换为统一的数据格式。包括数据类型、格式等转换、以及度量单位转换。

3、代码转换:把不符合新系统代码标准的替换为标准的代码。 4、值转换:包括特殊数据项的数据替换和数据项的拆分和合并转换。 (5)数据装载

根据存储设计,把整合完成的数据按照存储划分的设计方案装载到数据库不同的存储区域中。

(6)转换流程

根据以上数据整合的内容,数据整合转换的过程如下图所示:

数据整合转换的过程图

1、数据抽取和标准代码库创建:把旧系统数据抽取到转储数据库中,同时整理各个版本系统的代码数据形成代码数据库。这一步骤执行的操作为“数据抽取”和“创建代码库” ;产生的数据是转储数据和标准代码库。

2、数据清洗:对转储的业务数据,根据定义的数据清洗规则进行清洗。产生的数据是严重问题数据。

3、数据转换:定义好数据转换的规则,对经过第一步清洗的数据,进行转换。产生的数据是经过转换的数据。

4、数据装载:把完成前面步骤的数据装载到新系统数据库中。产生的数据是经过整合的。

5、数据校验:对完成整合的新系统数据定义校验规则进行数据校验,找出第二批的问题数据。使得数据的质量进一步提高。

1.1.1 数据流程分析

1.1.1.1 数据采集流程分析

业务上需要实现通过采集数据库从源数据库中获取数据目标,能完成不同数据库类型、不同数据结构的源数据库中的数据采集。采用XML技术作为数据映射,各个源数据都要遵循采集系统发布的数据标准、格式及校验规则,采集系统通过调用规则引擎中预先存储的业务规则,对所要采集的数据集的结构、格式进行约束和验证,从而保证所采集到的数据的完整性、一致性、可用性。数据采集系统支持Oracle、sqlserver、db2、sybase、odbc2.0等主流数据库,同时也支持XML、word、txt及Excel等非结构化数据。

系统既可以主动抽取数据又能被动获取数据。主动抽取数据的采集任务会在按用户设定的步骤主动抽取业务系统(数据库或文件系统)的数据。被动获取数据是指业务系统向采集系统发送数据并触发其执行数据采集任务。

从数据获取模式上看分为以下三类模式: 1、主动获取

主动获取方式是通过数据采集服务器,定时启动数据采集任务对药品生产企业的数据进行抽取

2、被动获取

被动获取方式是药品生产企业通过浏览器方式访问数据采集服务器进行数据的填报和通过C/S客户端进行数据的报送。

3、批量数据导入

将数据源或其他源数据端收集到的离线介质存储数据,并将数据在药监局端的数据采集服务器进行批量导入。

1.1.1.2 数据处理流程分析

ETL是数据抽取、转换、装载的过程,同时提供数据质量的管理、数据转换与清洗、调度监控,并且贯穿整个方案的全过程。ETL是构建数据中心的关键环节,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数

据中心转化的过程,是实施本项目的重要步骤。如下图所示:

数据源提取清理转换装载数据库处理:调度,异常处理,质量检查,重启,恢复,释放,支持 图 一-1数据处理过程

1. 数据抽取

数据抽取是从源系统中获取数据,以便加载到数据库中。数据的抽取必须能够充分满足数据中心系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。

1) 抽取方式:增量抽取、完全抽取等。

2) 抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。

3) 抽取周期:综合考虑业务需求和系统代价,制定合理的抽取周期,如按照小时、天、周、月、季度等。

2. 数据清洗

数据清洗的目的是选出有缺陷的数据,把他们正确化和规范化来满足信息使用者需求的数据质量。

由于数据清洗是一件增加成本的过程,提高数据质量的最终目的是希望得到干净和标准的数据来降低数据清洗和转换上的工作。

数据清洗可以在以下场合发生:

1) 源数据的清洗-目的是源系统中已有的数据结构上提高数据质量。 2) 对数据转换的数据清洗-目的是清洗、转换和提高从现有系统到目标架构中的数据质量。

3) 数据中心的数据清洗-目的是确保用于数据分析的数据的质量。(参考数据质量检测)

以下是数据清洗的流程:

1) 定义数据源-记录下所有会包含需要实体的数据源,并且标识出权威的

数据源。决定在哪里进行数据清洗和转换。

2) 抽取和分析数据源-从数据源中提取数据样本,分析这些数据是否符合定义,发现数据非正常的结构和格式,定义业务规则。

3) 标准化数据-转换数据到一个通用的数据模型中,基于定义标准化格式和数据值。

4) 正确和完整的数据-基于正确的规则纠正非正确和非标准的数据。定义如何处理遗失的数据,例如是找寻丢失的数据还是使用默认的数据。确定如何处理不确切的错误数据。

5) 匹配和合并数据-确定对于同一个实体的多个数据并把他们合并到同一个同期的记录中。合并同时需要把所有和这个合并有关的记录进行去重。

6) 分析数据错误类型-发现数据错误的种类来提高流程和降低重大问题出现的可能性。

7) 转换和增强数据-转换数据来把它加载到主题数据库中,这包含转换、格式化清洗数据和外部数据合并等。

3. 数据转换

数据转换是指对从业务应用系统中抽取的源数据,根据主题数据库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入主题数据库。ETL转换过程的集中体现为:

1) 空值处理,可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

2) 规范化数据格式,可实现字段格式约束定义,对于数据源中,时间、数值、字符等数据,可自定义加载格式。

3) 拆分数据,依据业务需求对字段可进行分解。

4) 验证数据正确性,可利用查询表及拆分功能进行数据验证。 5) 数据替换,对于因业务因素,可实现无效数据、缺失数据的替换。 6) 从查询表获取丢失数据,查询表实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

7) 建立ETL过程的主外键约束,对无依赖性的非法数据,可替换或导出到

错误数据文件中,保证了主键唯一记录的加载。

8) 可实现数据规则过滤。 4. 数据加载

数据加载就是将从源应用系统中抽取、转换后的数据加载到主题数据库系统中。要求数据加载工具必须具有高效的加载性能。数据加载策略要考虑加载周期及数据追加策略两方面的内容,主要加载技术:

1) 使用主题数据库引擎厂商提供的数据加载工具进行数据加载; 2) 通过主题数据库引擎厂商提供的API编程进行数据加载; 5. 数据审计

每个数据加载周期中,如何保证数据仓库系统中数据同业务系统中数据业务意义上的一致性及数据的准确性极其重要。必须引进数据审计功能。

数据正确性的保证在数据的ETL过程中实现,但数据正确性的审计工作则是在数据加载工作完成以后。一方面要从设计到实施的整个过程中确保算法的正确性,另一方面要通过事后的检验来检查ETL的正确性。

理想的情况是,审计工作必须在数据抽取、转换、加载等所有的阶段都要进行,比如,如果采用异步数据抽取和加载,则在数据抽取传输完毕后,要从记录数、文件大小等角度检验抽取和传输的正确性。

数据加载完毕后,一方面通过加载日志检验加载过程的正确性,另一方面要通过业务规则来校验数据的正确性。

6. 统一调度

统一调度是ETL中较为重要的功能。它不但可以将源数据加载到主题数据库中,而且还可以更新数据仓库,并且还可以更新OLAP Server和挖掘模型数据。它在整个商务智能方案中扮演着总指挥、总调度的角色。

ETL的调度控制方式有两种: 1) 自动方式

由每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。 2) 手动方式

用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。 7. 监控

主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问题,应当报警通知系统管理员等。

1.1.1.3 数据展示及服务流程分析

下面着重描述数据展示及服务的过程: 1、数据分析

分析所要清理的数据源,定义数据清理的规则,并选择合适的清理算法,使其能更好地适应所要清理的数据源。

2、数据清理

把数据源中需要清理的数据通过数据库连接接口调入软件平台,调用算法库中的相应算法对数据源进行预处理标准化数据记录格式,并根据预定义的规则,把数据记录中的相应字段转化成同一格式。然后,按照对数据源的分析,分步执行数据清理。清理过程一般为首先清理错误数据,然后清理相似重复记录,最后清理不完整数据。

3、数据展示

根据不同的查询条件展示数据结果 4、统计分析

根据规则展示所需统计报表 5、数据共享服务

根据各级食药监用户根据不用系统的业务需求,导出或实现数据交换 清理重复数据记录

对于完全重复记录,采用“排序→比较”的检测方法,先将数据库中的记录排序,然后通过比较邻近记录是否相同来检测完全重复记录;对于相似重复记录,清理方法是记录排序→记录相似性检测→合并相似重复记录。

清理错误数据

通过在规则库中预定义规则来检测数据是否满足属性域、业务规则等,从而检测出错误数据,清理效果取决于对业务的分析以及定义规则的数目。

清理不完整数据

不完整数据的清理可以总结为首先采用记录可用性检测算法检测记录的可用性,其次删除不可用的记录,然后对可用记录采用回归、判定树归纳等算法预测可能值来填充,也可人工处理。

针对数据库系统中数据状态、来源、作用的不同,采取的清理方法有: (1)基础数据顺查。以数据清理工作启动月的数据信息为时点,顺时逐月的往前清理,先清理本月、本年数据,再清理往年、往月的数据。

(2)结果数据倒查。当系统数据维护基本成功,能从机内生成出会统报表后,根据各种报表数据出现的错误,反过来到系统中追根求源,进一步发现问题,理顺逻辑关系,再度修改维护。数据清理必须首先保证本年数据质量,对以前年度数据是否清理,由各单位视具体情况而定。

(3)难点数据专查。针对由于政策法规调整、监管方式的改变等因素导致系统升级滞后出现的问题数据,进行专项的攻关解剖。在进行数据清理时,要实事求是,因地制宜。要分析本单位数据现状,找出适应本地实际的数据清理方法。

3、清理结果检验

数据清理运行结束后,在系统窗口中显示出数据清理结果,根据清理结果和警告信息,手工清理不符合系统预定义规则的数据,处理未清理的数据,从而完成系统的数据清理。另外,通过查看数据清理日志,检验数据清理的正确性,对清理错误进行修正。

规则库与算法库是可扩展数据清理软件平台的核心。规则库用来存放关于数据清理的如下规则:

(1) 业务规则

业务规则是指符合业务的某一数值范围或某一有效值的集合,或者是指某种模式,如地址或日期。业务规则能帮助检测数据中的例外情况,比如违反属性依赖的值、超出范围的值等。

(2) 重复识别规则

指定两条记录为相似记录的条件,比如距离的阈值δ。 (3) 合并/清除规则

指定对两条重复记录如何进行处理。对于一组所检测出的相似重复记录有两种处理方法:一种是把一条记录看成是正确的,其他记录则看成是含有错误信息

的重复记录;另一种是把每一条重复记录看成是数据源的一部分,目的是合并重复记录,产生一条具有更完整信息的新记录。相似重复记录的处理由用户根据具体的业务分析在规则库中预定义合并/清除规则来完成。

(4) 警告规则

指定对特殊事件的处理规则及相应提示信息。

可根据具体的业务,在规则库中定义相应的规则,或者修改已有的规则,从而使可扩展数据清理软件平台适用于不同的数据源,具有较强的通用性和适应性。

算法库用来存放数据清理所需要的算法。多种数据清理算法通过Java程序实现后,以类的形式存放在算法库中,供数据清理时根据不同的情况来调用相应的合适算法。通过选择相应的清理算法多次对数据源进行清理,可提高数据清理的综合效果。另外,在算法库中可不断扩充新的数据清理算法,供数据清理时选用。

算法库就是存放数据清理算法的类库,算法采用Java编程实现,供数据清理时调用,所需的新算法可通过Java编程实现后扩充到算法库中。规则库的实现可分成以下两种方式:

(1) 通过规则语言实现,规则语言一般采用IF-THEN规则,这种方式主要用手业务规则、警告规则等清理规则。

(2) 通过在数据库中创建一个数据表实现,这种方式主要用于重复识别规则、不完整识别规则、错误识别规则等清理规则。

软件平台提供数据清理规则定义界面,供数据清理时根据具体的业务分析,定义或修改规则库中的数据清理规则。

1.2 项目优化建议

1.2.1 业务流程优化

本期系统建设相关的业务流程是审评认证应用系统取得成功的重要保证。传统状况下的政府业务流程根据政府社会管理的职能需要设置,以政府业务的稳定实现为前提,较少顾及公共服务的效率和公共的需求。只有在理顺和优化相关的业务流程下,才能清晰地界定系统范围;反过来,通过IT系统的建设,可以大

大促进业务流程的优化,两者是相辅相成的。两者这种互相促进和制约的关系主要表现在以下几个方面:

1.缩小业务流程的规模。业务流程的规模取决于业务内容,代表了流程的复杂程度,也就是流程包含的活动步骤的多少。有些流程仅由一个或几个非常简单的环节组成,而有的则可能包含许多个复杂的、相互关联的环境。由于信息技术的应用,原来需要经理多个环境的流程可以大大缩减,甚至缩短处一个环节。

2.扩大业务流程的范围。业务流程的范围指流程穿越的职能部门或专业岗位的数量。电子政务促进了政府部门间的信息共享、政务协同和工作流整合,削弱了部门之间严格划分的职能界线,使更多的部门和岗位能够在同一条连贯的业务流程链条上开展工作,使分工协作更加默契、更有效率。

3.降低业务流程的中介度。业务流程的中介程度反映了组成流程的各活动的序列号程度,中介度高的流程有许多序列化的活动步骤,中介度低的流程中的活动没有固定的次序,可以直接作用于最后结果。电子政务使流程中不同互动的并列进行成为可能,在组成活动不变的情况下,表现为流程中输入和输出的活动减少,活动的序列化程度降低,中介度降低。

4.使流程从松散转向集成,突出业务之间的关联性电子政务推动下的流程整合首先尽量把相关的岗位和部门集中起来,然后从最基本、最明显、最简单的业务关联开始(这时的流程是松散的),逐步考虑更深层次的不同岗位和部门的协作和互动,充分揭示出原有组织之间的内在联系。集成化后,政府流程中的各个活动达到了充分的信息共享和交换,彼此之间有机协调地工作,呈现出整体最优的状态。

5.充分利用SOA架构快速优化系统的业务流程。将不同的业务以服务方式提供出来,通过SOA的基础设施对服务进行编排,以快速适应业务流程的变化。

1.2.2 整体性能优化

数据库性能的优化。PADIS系统包括业务型数据库和决策型的数据仓库。数据库的优化在系统整体性能的优化上占有重要地位。主要在几个方面进行优化:

在数据库设计方面,可以采用数据库分区的技术,把一个非常大的表放在多个分区里,每个分区都有自己的索引,使得查询速度变快。

把经常查询的条件字段加上索引,提高响应速度。

利用数据仓库本身利用数据缓存机制,将经常查询的表放在高速缓存中,提高响应速度。

对于OLAP来说,通过规划好Cube表,这样在进行多维分析时,对于即席查询的需求,通过数据的钻取,可以很快找到自己想要的查询结果。

对于数据仓库钻取,通过规划好事实表,在进行即席查询时候,通过设定查询条件,可以较快得到查询结果。

对数据库模型优化,适当使用冗余字段,提高查询性能, 对SQL语句优化;

1.2.3 应用程序的优化

良好清晰的设计有助于系统进行优化。按照上节性能评估的结果,行政许可管理业务系统的性能瓶颈基本主要在网络上,因此应用程序通过广域网在向服务器提交数据时,应尽可能以批量的方式提交数据,如果必要对提交的数据进行压缩,减少网络的数据流量,提高系统响应时间。

本文来源:https://www.bwwdw.com/article/lua7.html

Top