医疗大数据解决方案

更新时间:2023-04-19 09:28:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

医疗大数据解决方案

与信息系统的耦合度为零的数据才是合格的大数据

目录

第1章概要

关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计出的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大数据时代,人们发现,对全国万家医疗机构所产生的医疗数据进行挖掘非常困难,当前的大多数医疗信息系统都是用关系数据库系统而设计的。

用关系数据库系统所设计出的信息系统之所以难以互联互通,孤岛问题严重,根本原因在于“异构数据”。《医学信息的结构化存贮方法》中的“万能数据结构表” 可以存贮各种各样的数据,也可说用《医学信息的结构化存贮方法》所设计出的信息系统所产生的数据都是“同构”的,不存在“异构数据”的问题。关系数据库理论先天不足,不可能解决“异构数据”问题。

医院信息系统所处理的数据只是某家医院所产生的某些特定的数据(可称作小数据)。医疗大数据所要处理的数据是全国万家医疗机构所拥有的数十万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中,这些系统由不同的开发商所开发,各系统的数据结构各不相同。每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。

小数据的特点是数据的类型和数据都是有限的,在处理数据前能事先确定数据的类型。而大数据的数据特点是“多样性(Variety) ”,在处理数据时很难先事先确定

数据的类型,甚至不能确定数据的类型。目前关系数据库在数据处理中占据统治地位,而关系

数据库在处理数据时事先要确定数据的类型,因此,在处理数据类型不能事先确定的大数据

时,关系数据库就遇到了难以逾越的障碍。

医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据还只是处于概念阶段。大数据梦想将在10年后梦想成真,5年之内,难有突破性进展。

国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大数据的实际需求,需要对现有的信息系统进行彻底的改造才能适应大数据时代的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的!

关键词:数据与系统的耦合度、万能数据结构表、独立数据库、医疗大数据、数据的独立性、数据的完整性、数据的可识别性、事物分类。

联系人:樊梦真

136 **** ****

1.1 名词定义

数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当

数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数

据。大数据的数据来源于成千上万家单位的系统,因此,大数居中

的数据应该是与系统的耦合度为零的数据,否则就需要很多的应用程度来解读数据,

这会增加数据处理的难度、成本。

万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模仿大脑记忆、

联想的基础上而所提出的一种新型数据结构,可以在同一张表中存贮各种各样的数

据。

独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的数据库即可称

为独立数据库。独立数据库与关系数据库有本质的差异。

数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存贮方法”

所提出的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、

不依靠应用程序而独立地表达出某种含义。关系数据库中的数据不具有独立性,需要借

助于注释、数据结构、应用程序才能解读数据的含义。

数据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存贮方法” 所提出

的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程

序而完整地表达出某种含义。关系数据库中的数据不具有完整性,需要借助于注释、数

据结构、应用程序才能解读数据的含义。

数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然

而在全国范围内,由于人数太多,很多姓名都有重名现象,因此仅靠姓名就不能准确无

误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内

部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那

么这些数据就成了不可识别的数据。在大数据时代,需要通过数据的独立性、数据的完

整性而确保每一个数据都是可识别的。

在医疗大数据中,各个医疗数据分别由各家医疗机构所产生、拥有。

事物分类:事物分类是由发明专利技术“医学信息的结构化存贮方法”所提出的概念。

大数据时代以前的信息系统的最终用户是通过应用程序而看到各种数据,最终用户并不

直接与数据库中的数据打交道,数据库中的数据需要通过应用程序解读后最终用户才能

读懂。在大数据时代,大数据中包含成千上万家机构的数据,因此,大数据中的每一个

数据库是由哪家机构所产生,数据库中各表中所存贮的数据是什么等等都是非常重要的

信息,只有搞清楚这些信息,才

能正常解读各数据的真实含义。在“万能数据结构表”中,“信息系统的名称、数据库

的名称、表名”是以“事物分类”的形式存贮在表中,其目的是让数据具体独立性、完

整性,以此确保各数据在大数据中具有可识别性。

第2章医疗大数据面临的挑战

本章内容提要:大数据并不是小数据之和,大数据与小数据有本质的差异。关系数据库只适合于处理小数据而不适合处理大数据。用关系数据库来处理大数据时会遇到很多难以克服的困难。五年之内(2020年前)大数据难以取得根本性突破,大数据之梦十年之后才能梦想成真。维基百科关于大数据的定义也明确指出当前的主流软件工具不能高效地处理大数据,要高效处理大数据必须开发新的软件工具。目前的大多数信息系统所产生的数据都存贮在关系数据库系统中。关系数据库中的数据的一大特

点(或者说一大问题)就是“数据严重依赖于数据库系统及应用程序”,当关系数据

本文来源:https://www.bwwdw.com/article/fk1q.html

Top