从“数据孤岛”到“数据群岛”ver2.0 - 图文

更新时间:2023-11-14 07:50:02 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

从“数据孤岛”到“数据群岛”

——简析教育数据中存在的问题

在漫长的人类历史中,信息化时代的到来无疑大大加速了社会前进的步伐,越来越多的人感受到了由崭新的信息化技术所带来的变革和机会。与此同时,所有在过去无法收集与分析的数据(data),都将被赋予新的技术手段和科学意义。可以预见,在教育领域中,数据必将成为前沿研究者的核心内容之一。

基于数据的工作究竟会有多么广泛和美妙?假设这一问题的回答对象是传统的经验型工作者,他们可能觉得数据只是一张用于证明自己观点的图表而已;但在当代各行各业的尖端数据从业者眼中,数据俨然成为了他们的左膀右臂,甚至已经成为他们所在领域中最为重要的一项内容,因为数据分析和挖掘已经为各式各样的项目提供了简单而优雅的解决方案。

利用数据获取巨大成功的案例枚不胜举。譬如,你可以运用数据探索互联网中大量信息的潜在规律;你可以通过数据学会如何将出生率和地图绑定起来;你可以了解数据是如何影响并改善商业决策,从而有效提升企业业绩;你可以利用数据为探索DNA的规律提供线索……

1

数据的巨大潜力,使其拥有的魅力和价值远不止于此。对教育而言,数据并不是一个陌生的词汇。我们知道,学习就是一种信息传递和信息重构的过程,那么学习所需解决的核心问题,实质上就是为学生提供知识学习的管理系统、优化问题的解决过程、累积个性化的知识、形成学习兴趣和动力。而数据可以在这一过程中,实时记录学生状态并生成相关证据,从而在基于教师经验的前提下更进一步地实现技术与人的交互和促进。

或许读到这里,你会情不自禁地赞叹:Wow!原来数据竟然能够解决这么多的问题!但是,你也会发现数据应用的广度和深度在教育行业中依然有所不足。目前数据之于教育,就好比在一张工程图纸上随手画了几个线条,对工程本身着实无关痛痒,甚至不同线条之间也无甚关联,因此也就与理想状态存在较大差距。只有当这些线条以一定的规则和形式被系统地组合在一起,才能真正交织成一幅

2

精彩的图纸。

故而对教育工作者而言,在展望教育数据宏伟蓝图的同时,同样需要了解那些目前依然存在于教育数据中的问题。

破除教育数据孤岛

从数据应用伊始,“数据孤岛”问题一直阻碍着数据运用效能的进一步提升。因此在构想教育数据蓝图的同时,首先需要破除数据的“门户之见”。

何谓数据孤岛?数据孤岛是指不同的数据掌握在不同的政府部门或企业手中,而每个数据系统均各成体系,以各自不同的方式存储在不同的服务器上,导致在功能上互不关联,在信息上互不交换的处境,影响了数据的记录方式,产生了大量的冗余信息或垃圾信息等无效数据,最终使得数据、业务、应用互相贯通的模式无法实现。

这一现象普遍存在于各行各业之中。在教育行业中,以学校为例,人事部门、教务部门、财务部门、后勤部门等部门均各自拥有自成体系的数据库系统,但往往一些公共信息(如,学生基本信息)会被反复填报或是通过移动存储设备来进行交换,这大大降低了信息化工具带给学校的便利性。并且在这种信息交换的过程中,也会不可避免地产生各类错误或是误差。这导致研究者在对数据分析结果的阐释时,很可能得出有偏差,甚至得出不合常理、抑或是完全谬误的结论。

3

学校各部门数据孤岛示意图

通常,产生数据孤岛的原因包含以下几个方面:

忽略信息化发展的阶段性。信息化发展存在渐进性,因此,学校信息化的实施和应用并非一蹴而就,需要通过不断地磨合和修改,才能被统整为成熟的体系。而在最初阶段,学校的工作者倾向于仅仅借助计算机实现文字、图片、报表等方面的处理,采用分散开发或独立引进的应用系统,但却忽略了制定数据标准以及共享信息等情况。同时,因为学校往往过于追求快速解决眼前的问题,却未能考虑到学校系统的贯通性,所以导致了学校数据孤岛的产生。

忽略数据资源的建设。在对数据技术的认识上,部分机构会认为拥有大量计算机或高科技设备等价于现代化建设,而忽略了如何对信息资源进行有效建设。因此,学校在资金投入方面产生倾斜,导致购臵了大量的计算机设备,却无法得到充分的利用。最终大量设备只得闲臵,数据资源的开发与利用则相对滞后,出

4

现“有车无货”的尴尬局面。

缺乏数据资源的需求。很多时候,数据资源能够承担指导教育教学过程,并为教育管理者提供决策的任务。然而,一旦数据的收集方和应用方缺乏对数据需求的了解,或是尚未形成主动的数据需求意识,那么就无法将自身的潜在需求转化为显性需求。同时,即使学校某一部门能够提出明确需求,但囿于较低的信息共享度,也会致使数据无法完全满足使用者的需求。

缺乏统一的数据标准。目前而言,尽管大多学校已经十分重视业务计算机的应用,并赋予各部门建立数据系统的权力,但是这些系统往往彼此独立,不同部门所采用的操作管理系统并未贯通,仅为解决自身部门的业务而设,因此他们仅采用各自部门的标准,却忽略了学校体系的全面性和统整性。于是,对学校而言,每建立一个应用系统就会伴随一个独立的数据库,不同的数据库内拥有不同的数据,互相之间没有联系,数据编码和信息标准也不统一,这对希望在跨部门间找到相关数据信息的工作者来说,无疑是极为不利的。

缺乏有效的管理手段。从另一个角度来看,数据孤岛的产生与管理体制问题也存在密不可分的关系。学校各部门对学校业务的分管在一定程度上也分隔了学校内部本应统一的数据信息。而学校管理上的条条框框所限,也很大程度上阻碍了数据传递,更不用说当提交者自身缺乏全局观时,这些数据信息就更难以反映到学校整体的信息系统中。

建立教育数据仓库

显而易见,教育数据孤岛的存在不仅会大大降低学校利用数据的效率和准确性,也反映了学校目前对待数据技术和态度方面依然有所欠缺。因此,对学校而

5

言,想破除数据孤岛就需要首先在数据层面进行集成,建立一个庞大的、完整的、连通的数据仓库。

什么是数据库?

数据库是指依照某种数据模型组织起来,并存放到二级存储器中的数据集合。这种数据集合具有如下特点:(1)尽可能不重复;(2)以最优方式为某个特定组织提供多种应用服务;(3)其数据结构独立于使用它的应用程序;(4)对数据的增、删、改、查由统一的软件进行管理和控制。

通常情况下,一套完整的数据库包括:

1.模型语言,用以描述数据库管理系统的数据模型,并且用于定义各数据库的对象集合(schema)。最常用的三大类分别为层次结构式、网络式及关系式的模型。一个数据库管理系统可提供一种、两种,甚至全部三种方式,也可能提供其他形式。最适合的模型要视乎个别应用程序、交易进行比率及查询的频繁程度等。

2.优化的数据结构(字段、纪录及文件),以支持其能够在永久存储设备(permanent data storage device)上存储极大量的数据。

3.查询语言及撰写报表的程序,让用户可以以交互方式查问数据库,从而进行数据分析,以及根据用户的权限来更新数据。

4.交易机制(最好可以保证ACID特性),保障了多用户同时访问之下,仍能维持数据完整性(data integrity),以及提供故障排除(fault tolerance)。

我们可以用这样一张图来简洁明了地展示一般数据库的结构。

6

数据库结构层次示意图

? 内部层(Internal Level):所代表的是实际存储数据的结构。

? 外部层(External Level)或称视界层(View Level):代表用户或是应用程序所看到的部分。

? 概念层(Conceptual Level):为内部层与外部层之间的桥梁,可看作是数据库管理师(DBA)所看到的整体部分。

教育中的数据仓库

事实上,数据库在教育领域中的运用已经初见雏形。从学生档案管理系统到学校的教务成绩录入系统,都可以算做是完整数据库的冰山一角。而真正的全面的数据仓库,正是通过关联关系和层次关系,将这些数据库拼接后的产物。

我们来举个例子,通过一个独立的学校的档案管理系统,教育教学工作者可以了解到学生的姓名、性别、家庭情况等基础信息;与此同时,学校的成绩录入系统可以查询学生各门学科的期末考试分数;另一方面,学校的活动管理系统可以查询学生参与活动的情况。

7

我们不妨做个简单计算,假设这三个系统分别涵盖了10种类别的信息,并假设各自产生了3,000条数据。那么,在三者互相独立的情况下,数据研究者只能解读这三部分各自的结果,也就是对一共三十种类别,共9,000条数据各自进行研究;而在数据贯通的情况下,研究者就可以了解到不同性别的学生、不同年龄的学生,不同家庭背景的学生的不同成绩情况以及活动参与情况,也可以进一步研究活动或是学业受到哪方面因素的影响较大。

学校数据仓库让学生数据在允许类似排列组合的情况下,生成1,000多种类别,3,000,000多条数据,是原有模式数据量的330倍!随着数据库的进一步组合和扩张,信息量将会以指数形式增长。在此前提之下,一套成熟的数据库体系能够帮助我们在更多地掌握学生的信息的同时,允许我们更简便的写入、修改、检索和分析。

结合上述内容来说,学校数据库的建设和管理是急速提升学校数据利用效率的最直接方式之一。就像出口贸易一样,只有当物资被运送到其他地区,并和别

8

的货物发生了广泛的交换和贸易时,它的价值才得以体现。这就是建立一个完整的教育数据库所具备的意义,让数据交换的速度更快,彻底贯通部门之间壁障,让研究者能够进行有效的分析和判断。

但是,教育数据库绝非一蹴而就的快餐技术,需要整个学校群策群力。而除了要在业务层面达成共识之外,数据库对数据本身的质量要求也极为严格。所以在建立数据库同时,我们也需要对错误数据进行规整。一般而言,发现并纠正数据文件中可识别错误的一道程序称为“数据清洗(Data Cleaning)”,包括检查数据一致性、处理无效值、处理缺失值等过程。

大多时候,数据清洗过程会由计算机通过统一的规则进行,这也大大提升了数据利用的效率。但是,如果递交的数据本身已经存在大量问题,并且无法找出统一的规律,此时强行运用计算机清洗必定会导致大量的数据被错判或是被误删,反而无法起到真正的清洗作用。如果对这样的数据仓库勉强进行数据分析,无疑是“在垃圾的信息上得出垃圾的结论”。所以,下文将列举在实际学校数据填报过程中可能存在的一些普遍性问题,为搭建学校数据库做好前期准备工作。

规范教育数据填报

在实际教育数据采集和填报过程中,我们常常会遇到不同形式的“脏数据(Dirty Data)”,这些数据或是残缺不齐的数据、或是存在错误的数据、或是重复的数据。如果脏数据是由于技术不成熟的原因所致,则一定能随着日新月异的技术更迭而逐渐完善;但如果脏数据的产生是人为所致,并且毫无规律可言,那么机器就无法完全识别。而对于数据库工作者而言,存在过多无法识别的脏数据,很可能导致数据库建立就此停滞,甚至项目整体的失败,致使千里之堤毁于蚁穴。

9

因此对教育教学工作者和管理者来说,需要在数据填报的过程中对一些常见而可能导致数据填报错误的问题有所警觉,以提升教育教学中的数据质量,为后续教育数据仓库的建立,破除数据孤岛以及对教育数据的分析和挖掘打下基础。以下将列出在教育行业中常见的数据填报错误:

并不统一的录入标准

当采用不同的标准记录同一事物时,你还能发现他们其实是在说明同一件事物吗?在教育数据中,常常会发生因记录的标准或方式不统一而导致机器在识别这类数据时产生困难。

以身高为例,在一份记录学生体检情况的数据表中,学生A的身高被记录为1.55,从经验判断,学生A的身高为1.55m(米)。但是在另外一张数据表中学生A的身高则被记录为155,那么从经验判断,学生A的身高为155cm(厘米),等价于1.55m。

这些看似易于识别的问题,但是机器而言,就需要添加一些规则进行约束,也不利于将来对数据库的维护。倘若上述身高不以公制单位记录,而以英制单位

10

记录,则很可能造成无法识别的情况。就如在另一张表中,学生A的身高被记录为6’1’’,即6英尺1英寸,那么不仅机器,甚至是人类凭借经验也无法确切识别。

因此,在建立教育数据库之初,就应当对不同的数据字段采用统一的度量标准,以便于机器识别,也便于人工管理。

有待规范的填报内容

除了上述因填报标准所导致的问题外,计算机也无法确切识别因填报内容偏差所致的错误。这一偏差往往会导致错误数据信息的发生,也很可能导致冗余数据的大幅产生。

例如,学生B所在的班级参加了一次春游活动,活动结束后两位带班老师分别进行数据录入。在活动名称一栏中,教师1填写为“春游”,教师2填写为“20XX学年第一学期春游”。那么对机器而言,这一个班级的学生参加的就是不同的活动,这对于后续的数据分析无疑极为不利。

上述内容可以通过对系统加上一定的规则的方式,使机器识别。但是如果在活动名称中出现不同的标点符号、随意添加空格、输入错别字等等情况,规则会更为复杂,从而难以管理。所以,对于教育数据而言,如何对内容进行规整显得尤为重要。

不同粒度(granularity)的填报形式

粒度通常是用于描述物质颗粒大小的术语。在数据库中,是指系统内存扩展增量的最小值,即数据库中所需填报的最低单位内容。这一问题是数据库最为主要的设计问题,影响着数据所能回答的查询类型。填报不同粒度的数据也会导致数据库无法准确识别。

例如,某校举办了“文化活动月”,活动结束后需要各班级上报活动情况数

11

据。此时A班在活动名称一栏填写了“文化活动月”,而B班则将之拆分为不同活动,包括唱歌、跳舞、朗诵等。那么在数据库中,就会认为B班并未举行“文化活动月”,但B班的活动总数却远远多于A班。

或许在某一次活动后,及时检查能够规避这类问题,但是随着数据量以几何倍数上升,这类问题的审核就变得尤为困难。最终只能人为检查,反而失去了数据库本身高效、准确的意义。因此在数据填报之前,就应当对相应粒度有所规定。

界定模糊的活动类别

在实际教育教学中,存在课程内容或是活动内容互相交叉的现象。在进行填报时,就会发现该类课程或是活动无法被清晰界定。

举例来说,某校开设了一堂拓展型的兴趣课程,课程名称为“小小IT设计师”,课程内容是关于指导学生如何利用制图软件进行平面艺术设计。虽然制图软件应用属于科学技术范畴,但进行艺术设计则应该划分为艺术类范畴。通常,教师在填报此类活动时,会将其划分到某一类中,或将其同时划分到两类,与实际情况存在一定偏差,也为后续进一步统计分析带来不便。

解决这类问题就需要对整体数据模型进行进一步调整,使得同一课程中不同类型的内容能够被详细划分出来。同时,对于不同的活动,教育工作者也需要将其明确界定,并划分为各自独立且不存在交叉的类型。

超出范围的数据内容

当目前的数据体系并不能完全涵盖所需采集的数据时,被排除在类别之外的数据就存在被人为随意划分、随意更改或随意删除的可能性。

例如,在数据库设计之初,仅对某一竞赛获奖等级设臵了一、二、三等奖。但是在实际数据填报中却发现,奖项除了一至三等奖外,还设臵了特等奖、鼓励

12

奖和参与奖。于是,不同的数据录入员在填报中采取了不同的方式,比如,有无视一、二、三等奖全部填写的,有仅填写一至三等奖的,有将特等奖降级为一等奖处理的等等……

由于我们往往不能全面考虑到数据填报中的所有可能性。因此,在整个教育数据库建设的过程中,需要不同职责的工作者不断沟通交流,并能够及时做出调整。

尚需提高的操作技能

数据库开发和维护需要专业的技术人员,这些都不属于教育教学工作者的职责范围。而教育教学工作者需要为数据库的专业技术人员提供相应的原始数据,这离不开掌握一些基本操作的技术技能。

例如,录入员A和录入员B同时处理相同数据量的内容时,录入员A仅用1个小时就精准地完成了相应的任务;而录入员B则花费了一整天的时间,到最后依然错漏百出。究其原因,A对基本的录入操作已经炉火纯青,在各个环节中均采用了最恰当的技巧,最终使得效率最大化;相较之下,B则毫无操作经验,对于大量重复数据依然采用最原始的手工录入方式,不仅花费了大量的时间,也使得错误发生的概率大大提升。

因此,在实际教育教学工作中,熟练使用一套数据录入软件对教育工作者和管理者百利而无一害。大多时候,只需熟悉一些常用的基本功能,就能达到事半功倍的效果。

尾声:迈向数据群岛

在海量数据面前,我们并非是无能为力的。随着数据与数据之间的屏障被一

13

点点打通,随着全面的数据仓库被慢慢塑造成型,随着变量与变量之间的关联关系被渐渐确立,一个最终规范的数据仓储与管理系统终将会在教育行业产生。于是在前文所谈及的一些问题,也可以通过更优方式来解决。

目前,这些优化的方式已经有较为成熟的技术支持了,如,通过对大表分组,建立对应的索引,我们可以更为便捷地把数据放在最为正确的位臵;通过优化查询SQL语句、减少关联、少用或不用游标、设计好高效的数据库表结构等方法,可以更为高效的找到我们所需要的数据;通过定制强大的清洗规则和出错处理机制,可以减少数据中的偏差值和错误值,提高数据的有效性。

假如有一天,教育数据真正实现了“数据群岛”,即所有的教育数据都被归总在一起,那么除了实现信息共享、提升管理效率之外,展现在教育教学研究者和工作者面前的将会是一座极为瑰丽的宝库,其中的数据资源可以以任意形式开

14

采和开发。

不妨畅想一下,学生在校内超市的消费情况与肥胖程度之间是不是会有关系?通过教育数据群岛,我们可以迅速从学生体质健康数据库及学校超市消费情况数据库获取相应的数据结果。若分析发现,爱吃薯片的学生肥胖程度更高,那么学校便可以有意识地与校内超市达成共识,调整薯片的进货数量,或者替换其他品牌、但热量更低的薯片。

再以学生学业质量为例。目前,有越来越多的研究指出学生的学习成绩会受到同伴关系、家庭结构、生活习惯等方面的影响。相较传统数据孤岛,数据群岛就会允许我们在学生学业质量系统、学生家庭问卷调查系统、学生课堂表现调查系统等系统中直接调用相应的数据内容。于是,当我们发现随阅读量上升,学生的语文和英语成绩也会更好时,教师就可以鼓励学生积极阅读;但我们同时发现当阅读书籍数量达到一定程度(譬如每学期3本),学生学习成绩上升不再明显时,教师就可以建议这部分学生参加其他活动以丰富成长体验;或者,当我们又发现洗澡时间稳定的学生学习成绩通常也会更好时,教师就可以针对那些洗澡时间极为不稳定的学生进行进一步的家庭调查,一起探索家庭教育中可能存在的问题,以实现有效的家校互动。

那么,仅仅建立学校数据群岛/学校数据仓库就足够了吗?笔者认为,这个问题的答案有且仅有一个:“绝对不够”。严格来说,学校的数据群岛如果脱离了整个社会,依然只是一座孤岛,哪怕其规模相较其他孤岛要更为庞大。因此,只有当整个社会均被连接在同一个系统之中,孤岛才可能被真正打破。

一项由英国牛津大学的研究人员进行最新研究表明,与那些不玩电子游戏或者玩游戏时间在3小时以上的青少年相比,每天玩1小时电子游戏的青少年的适

15

应能力更强。但若青少年每天玩1-3小时游戏,那么对他们的适应能力没有明显积极或消极的影响。上述研究中涉及学生玩游戏时间、学校适应能力、社会适应能力等方面的数据。目前,倘若需要获取这些数据,就需要同时访问学校内外的各类数据库,无疑费时费力。如果整个社会数据库互相连通,那么研究所需的成本则必然大大降低。甚至在不远的将来,我们不仅可以获取更为广泛的数据资源,也可以对任何问题所需的相关因素进行更深入的探索。

现在展现在我们眼前的,正是一次契机,大数据时代的到来帮助我们发现了传统教育所缺失的一角,当然我们可以选择避开这些困难,停留在原地继续踏步。但显然唯有努力克服了这些问题,我们才能更全面的把握数据、乃至是大数据、甚至是海量数据,作为我们教育改革,课堂转型的重要依据。我们希望,未来教育的环境,不再是只能够“用经验说话”,而也可以“用数字说话”、“用事实说话”。因此,打通“教育数据孤岛”、构建“教育数据群岛”、运用数据化的教育管理系统、完善教育行业更好的数据环境,是教育真正实现以学生为本的重要前提,也是下一个教育改革阶段里最为重要的一步。

16

本文来源:https://www.bwwdw.com/article/tk1v.html

Top