大数据时代 第四章

更新时间:2024-06-22 11:14:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第四章 大数据的管理

第一节 大数据的生命周期管理 当前,社会各界已经充分认识到大数据的价值并努力通过各种手段从不同角度去挖掘大数据的价值。大数据的生命周期管理能够实现数据存储和利用的动态化管理,通过对数据价值的评估而制定不同的管理策略,从而提高数据资源的利用率和可用性。一、数据生命周期管理及其阶段划分数据生命周期管理(DataLifeCycleManagement)来源于信息生命周期管理(InformationLifeCycleManagement)。信息生命周期管理的理念是由美国存储公司StorageTek于2002年提出来的,其基本思想是,信息是·86·有生命的,处于不同阶段的信息应为组织提供不同的价值,因此应该对信息进行贯穿其整个生命的管理,包括从创建和使用到归档和处理。此后,IBM、HP等公司又进一步提出了信息生命周期管理解决方案,信息生命周期管理的思想开始被学界和业界所接受。从本质上说,数据生命周期管理是信息生命周期管理的深化和扩展,尽管到目前为止,还没有一个统一的数据生命周期管理的定义,但对数据生命周期管理的核心的认识却基本上是一致的,也就是:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段,在每一个阶段上,数据的价值是不同的,数据生命周期管理就是要在数据存在的不同阶段,根据数据价值的不同而采取不同的管理策略,使数据在每一个阶段均能产生最大的效益,同时又能降低组织利用这些数据所需要的成本。与信息生命周期管理不同,数据生命周期管理更强调数据对于组织的重要战略意义,在数据创建到最终消亡的生命周期中,数据利用者应根据数据价值的变化对数据进行动态管理,提升数据服务水平与数据使用效率,从而实现降低成本、提高效率的目标。在数据生命周期管理实践中,数据存储和备份规范是保障和基础,数据管理和维护是执行方法,通过高效的数据管理和维护,不断提升数据服务水平,使数据的价值得到最大化利用。图41是大数据的数据生命周期管理的阶段构成示意图,正如一个人从少年到老年—样,组织中的数据也要经历从创建、修改、复制、分发、保护。恢复、归档与召回,到最终被删除这样一个生命周期。大数据的数据创新可以让已经变为“老人”的数据继续发挥余热,创造新的价值。也就是说,当数据的首要价值被发掘后,通过数据重组、数据扩展、数据再利用等方法可以继续挖掘出数据的潜在价值,获得数据带来的源源不断的新价值。从图4—l中可以看出,首个生命周期从数据创建开始,包含数据存储、数据使用、数据分享和数据归档几个方面;在数据的新生命周期中,数据重组和数据扩展是实现数据再利用的重要方式。在生命周期的每一阶段,数据估值与数据折旧始终交替贯穿在整个大数据的数据生命周期中,不断根据估值的结果调整数据折旧率。依据数据相对于组织的价值来管理数据不仅能保证数据的循环可用性和实效性,满足组织内部业务需求,又能降低数据存储系统的成本。同时,与现实生活中只能给环境和人们带来祸患的工业废气不同,“数据废气”仍然可以变废为宝,如同其他可回收材料一样被循环使用,继续发挥价值,实现数据的再利用。二、大数据生命周期管理的意义运用大数据生命周期管理的思想来管理数据,可以为组织带来巨大的效益,主要反映在“提高数据的使用效率”“最大限度地利用数据的价值”“降低数据使用的成本”三个方面。(一)提高数据的使用效率数据生命周期管理实质是对组织中的所有数据进行的一种分类管理,它根据组织的特性,按照特定的“保存规则”对数据加以组织,在整个数据生命周期中对数据进行动态智能化管理,提高数据的使用效率。比如,一些企业将数据分为五个层次:至关重要的数据、关键业务数据、可访问的在线数据、近

线数据和离线数据,并根据不同的层次,制定数据管理标准,投入不同的数据分析人力和数据维护成本。其中,至关重要的数据和关键业务数据是企业的核心竞争力,这些数据是数据再利用的主要数据来源,因而数据利用者应着重对这两类数据进行重组和扩展,延长它们的生命周期。(二)最大限度地利用数据的价值在大数据时代,数据价值不仅体现在它的基本用途方面,还体现在其更大的潜在用途方面,这会影响一个组织评估其拥有的数据及访问方式,促使组织改变自身的业务模式,改变组织看待和使用数据的方式。例如,在企业的现实环境中,存储有大量的运营数据,这些运营数据无疑是大数据分析的重中之重。同时,以往不太受到重视的系统运行数据和备份数据也会发挥出巨大的作用,这些数据中的宝藏也亟待挖掘,在企业各个层级中得到运用。(三I降低数据使用的成本组织可以根据数据的价值对其进行管理,这些规则通常包括时间与访·88·问频率、事件等组合形式。采用数据生命周期管理技术可以建立分层存储环境,这些分层规则对组织具有多方面的好处。在整个数据生命周期中对数据进行智能化管理,可以释放出更多的可用存储空间,整合或折旧很少被访问或根本不被访问的数据,提高组织内应用软件的性能,降低存储资源的成本,最终为组织带来更大的效益。大数据的数据生命周期管理能够实现数据存储和利用的动态化管理。企业通过对数据价值的评估而制定不同的管理策略,使具有现时价值的业务数据突出出来,并通过对无用的数据进行有效折旧,提高数据资源的利用率和可用性。第二节数据的再利用信息技术的飞速发展,极大地便利了数据的收集,大量信息可以被廉价地捕捉和记录;同时,数据的存储成本也在大幅度下降,可以说,保存数据比丢弃数据更加容易。这些条件都成为大数据时代数据再利用的重要前提和保障,专业技术人员需要做的是运用自己的创造力和新工具来释放数据的潜在价值,寻找数据之间的新联系。一、数据再利用的概念及其特征数据再利用的概念可以这样理解:组织中为某个特定目的而生成的数据,被重新使用在另一个目的上,数据从其基本用途扩展到了二级用途。三级用途甚至n级用途上,这使得数据随着时间的推移变得更有价值。数据利用者需要做的是不断地借助各种方法和技术寻找数据的“潜在价值”。例如,对于一个企业来说,客户数据、行业数据是其最宝贵的资源,如果能将这些数据从一个业务领域向另一个业务领域进行扩展和再利用,就能发挥数据低成本复制和增值的价值,为企业带来经济效益。数据之所以可以再利用,主要在于它具有可被再利用的特性,包括增值性、非竞争性和整合性。《一)增值性在大数据时代,数据在完成其基本用途后,还可以转化为未来的潜在用途,数据的全部价值远远大于其最初的使用价值。这意味着只要组织对数据加以有效的再利用,数据首次使用后的每一次使用都会不断地给组织·89·带来新的价值。(二)非竞争性经济学中的“非竞争性”是指个人的使用不会妨碍其他人的使用。而数据正符合这种特征,只要是合法合理的条件下,不同的人或不同的组织都可以使用数据来达成自己的目的。也就是说,数据不同于物质性的产品,它的价值不会随着它的使用而减少,而是可以不断地被处理。数据的非竞争性使得数据的价值不限定在唯一的用途上,而是可以多次地被不同的部门、为不同的目的使用,而且,这种使用不会影响到他人的利益。(三)整合性大数据的数据类型繁多,而且,相对于以往以数值数据为主的结构化数据,非结构化数据越来越多,网络日志、音频、视频、图片、地理位置等多元数据都对组织的数据处理能力提出了更高要求。通过数据集成技术,将这些来源不同、结构不同的数据整合在一起,形成可以面向多种应用的数据集合,可以使得大数据发挥出强大的预测和分析作用。二、数据再利用的意义大数据的价值在于分析与

使用,数据的再利用也成为大数据时代数据使用的关键,组织想要充分开发利用数据的价值,就必须具有数据再利用的思维,掌握数据再利用的方式方法。概括地说,数据再利用对于一个组织的意义在于三个方面:一是挖掘数据的潜在价值,二是实现数据重组的创新价值,三是利用数据可扩展性拓宽业务领域。(一)挖掘数据的潜在价值在大数据应用背景下,数据存储成本的日益降低、数据分析技术与工具的飞速发展以及组织“大数据观”的建立,为组织进一步充分挖掘过去不被重视或无法处理的数据提供了条件。大数据蕴藏的巨大“潜在价值”会得到最大程度的挖掘,从而为组织的客户服务、产品创新和市场策略提供决策支持。(二)实现数据重组的创新价值互联网的发展使得现代组织不再可能孤立的发展,组织间信息和数据的共享重组已经成为合作的常态。例如,越来越多的企业开始注意到数据重组为自己带来的巨大价值,从网站数据、移动终端数据、电子商务记录、企业微博等不同渠道的数据中探寻内在关联关系,通过数据融合的方法再次整合数据,开发数据的创新价值。·90·(三)利用数据可扩展性拓宽业务领域客户数据、行业数据对于组织来说是重要的战略资源,如果组织能将这些数据从一个业务领域扩展应用到其他业务领域,就可以实现数据的可扩展功能,发挥数据的增值价值,扩宽企业的业务领域。三、数据再利用的案例通过数据再利用创造更多的价值的案例有很多,其中以协助书籍数字化工作的reCAppCHA项目和预测性医学信息学相关的谷歌流感趋势最为典型。《一)从辨识用户到协助书籍数字化一eCAPTCRAreCAPTCHA源自CAACHA,CAACHA的中文全d亦是“全自动区分计算机和人类的图灵测试(ComPletelyAutomatedPUblicTuringTesttoTellComputersandHumansApart)”,即“验证码”。CApoCHA由卡内基梅隆大学的教授冯·安(LuisvonAhn)设计,旨在防止垃圾注册或者垃圾评论。reCAPTCHA作为CAppCHA继任者在功能上进行了升级,它借助于人类对复杂字符的辨别能力,对古旧书籍中难以被OCR(OPticalCharac-terRecognition,光学字符识别)识别的字符进行辨别,实现古籍的数字化工作。reCAPTCHA已被应用于4万多个网站,并辨别出了约4.4亿个字词。许多著名网站,如Facebook、Twitter等,都采用了reCAppCHA,每天都可以处理大约一百万个单词。reCAppCHA不仅实现了“验证码”的作用,用户输人的内容又可以再一次地利用在古籍中模糊字符的识别上。reCAppCHA的工作流程如图4----ty所示。首先,被扫描的古籍由于自身损坏程度较大或印刷模糊等问题会含有一些机器无法识别的单词,这些单词被挑出来后进行字形扭曲和加上横线等处理。在作为验证码时,两个单词会一起出现在用户眼前,其中一个单词是已经被其他用户辨识正确的,如果这个“老词”被这个用户正确辨识,则证明该用户的确是真人而非机器爬虫,另一个单词则是有待识别的新词,等待用户进行识别。此外,为了保证准确率,系统会将同一个新词发给五个不同的人,直到这五个用户都对新词进行了识别,才根据这些用户的输人结果确定新单词的拼写。这样,每输人一次验证码,就为机器增加了一条新的识别规则,从而使得机器识别出一个新词。·91.图4--streCAgrCHA原理示意图通过reCAppCHA的案例可以看出,数据原本的主要用途是辨别提交信息的用户是否是人,而通过数据再利用则实现了辨识模糊词的功能,为书籍的数字化工作提供了新的便利,充分发挥了数据的潜在价值。〔二)关键词带来的预测性医学信息学——谷歌流感趋势(GoogleFIuTrends)谷歌(Google)流感趋势项目利用了人们在网络上的搜索行为来展示流感的流行病学特征并预测流感趋势。在流感多发季节,人们会通过谷歌等搜索工具了解流感的爆发情况以及应对流感的一些措

施。很显然,在这段时间里,如“流感”“发烧”“勤洗手”“戴口罩”“流感疫苗”等这些与流感相关的关键词会高频率地出现在搜索引擎中。同时,人们也会通过Twitter等社交工具反映本人或其朋友是否感染了流感,并发布与流感相关的信息等。谷歌利用这一现象,抽取与流感相关的关键词并对词频进行分析,从而预测流感的传播情况。相对于传统的疾病监测系统,这种方法成本低廉而且能较早地预测流感的爆发。对比谷歌流感趋势2004年至2008年流感流行病数据与美国国家疾控中心的数据可知,两者的结果非常吻合。而获得谷歌流感趋势结果的成本要远远低于美国国家疾控中心的预测结果,后者是花费了相当数量·92·的调研经费才取得的。谷歌在美国的九个地区做了测试,最后发现他们可以比联邦疾病控制和预防中心提前7到14天准确地预测流感的爆发。预测性医学信息学(PredictiveMedicalInformatics)在未来必将有更大的发展空间,其重要性也将渐渐被人们认识到,谷歌流感趋势仅是个开端。谷歌的搜索数据是具有巨大价值的分布式数据,大数据思维促使企业收集和再利用这些用户离散地创造的数据,并探寻原来小数据时代不会被发现的关联模式。虽然,对于噪音会破坏其模型精度的讨论一直存在,但这也促使谷歌的开发者们不断调整模型,寻找减少噪音的跟踪方法。即使存在一些质疑,谷歌流感趋势项目仍然被认为是大数据具备革命性潜力的典范,是大数据再利用的最前沿、最实际、最具应用前景的尝试。无论是Facebook.Twitter这些社交平台将用户的信息存人到巨大的个人信息库中以待开发,或是电商企业通过整合网上搜索信息以寻找新一季的热卖款,又或是利用电动汽车的电池信息以确定充电站的最佳设置点,这一个个实例都在说明,专业技术人员应及时运用自己的创造力和新工具来释放数据的潜在价值,寻找数据之间的新联系。第三节数据的重组与扩展一、数据重组数据在被使用之后,可以再与其他数据重组形成新的数据集合,这种新的数据集合有可能比之前两个数据集的单个价值总和具有更大的价值,这就是大数据时代下数据重组的魁力。数据重组要求专业技术人员在工作中深刻了解每个数据集的内容和结构,掌握多源数据融合的方法,努力挖掘不同数据集之间的关联关系,从而探寻出更多具有实际价值的、新颖的数据模式。(一)数据重组的含义无论是政府还是企业,在应用大数据的过程中,最重要的是对已有数据进行整合和重组,通过重组,“老树”也可以“开新花”。也就是说,数据的价值并非来自于单个的数据值,而是从数据汇总中体现出来。有时,一些数据处于休眠状态,其数据价值要通过与另一个不同的数据集相结合才能释放出来,并创造出很多非常有意义的结果。·93·数据重组的概念可以这样理解:随着大数据的出现,数据的总和比部分更有价值,将多个数据集重组在一起时,重组后的数据总的价值比单个数据价值的总和要大得多。通过数据重组,数据的价值能达到“1+1>2”的效果。正是由于数据重组带来的巨大的增值性,许多企业和组织都在摸索将两个或多个数据集相融合的模式,最大可能地挖掘数据的潜在价值。《二)数据重组的主要方法大数据的一个重要特征就是数据类型繁多。半结构化和非结构化的数据的增多对数据的处理能力提出了更高要求,需要更多新方法和新技术对多源异构数据进行整合和分析。实现数据重组的关键是多源数据融合和数据集成,前者旨在解决大数据环境下数据的异构问题,后者则是大数据重组模式下价值提炼的关键。1.多源数据融合大数据的来源包括但不限于网络访问日志数据、社交网络数据、智能终端数据、移动数据、视频采集数据、WebZ.0环境下产生的用户数据,以及语音通话、传感器等自动采集的数据等。这些数据类型多样、结构复杂。面对这样的数据,多源数据融合方法是解决异构数据重组的重要方法。多源数据融合研究如何加工、协

同利用多源数据,把不同渠道、利用多种采集方式获取的、具有不同结构的数据汇聚到一起,形成可以面向多种应用的数据集合,并使不同形式的数据相互补充,以便进行综合处理。多源数据融合是数据分析前的重要准备过程,对同型异源信息、异质异构信息,都需要通过异源信息字段的映射、拆分、滤重、加权等方法来进行融合。多源数据的优势在于它可以从不同视角反映人物、事件或活动的相关信息,将这些数据重组在一起并进行分析,以更全面地揭示事物之间的联系,挖掘出新的关联模式,从而为业务模式的制定、竞争机会的选择等提供有力的数据支撑与决策参考。以电信业为例,运营商们现在主要的问题不在于没有数据或是数据量不足,而在于组合分析数据并将其转变成知识的能力相对较弱。最近,美国AT&T公司开始对外销售其客户的使用数据,这被视为利用大数据资源营利的一种尝试。AT&T公司对外销售的不是简单的原始数据,而是经过一定分析处理的数据,这就需要具备大数据的整合分析能力。首先要做的就是把业务系统中产生的各类数据整合起来,比如将计费系统、资源系统等进行整合,再寻找数据间的相关性,识别真正有用的数据,排除数据废气的干扰。同时,用户隐私保护问题也要纳人考虑。最·94后,经过这一系列科学化处理之后的数据才能真正被称为大数据资产。对于电信运营商来说,建立一个大数据的前期处理平台至关重要,在这个平台上可以整合来自不同业务运营部门分散的数据,进行数据清洗和转换,完成多源数据的融合。融合后的数据将以可以进行多维度分析的数据元组形式保存下来,进而被不断运用。正是因为如此,电信运营商十分重视建立适应大数据异构性的集成平台,基于平台开展数据整合工作,从而实现数据价值的最大释放。2.数据集成数据重组强调数据共享,而在实施数据共享的过程当中,来自不同部门、不同用户的数据结构、数据格式和数据质量会有很大的差异,这就可能带来数据格式不能转换或数据转换后丢失信息等问题,严重阻碍数据的流动与共享。针对这一问题,就需要对数据进行有效的集成管理以增强数据管理竞争力。现在,许多大型企业和政府部门都开始了信息化进程,而信息系统建设通常具有阶段性和分布性的特点,这就容易造成“信息孤岛”现象。“信息孤岛”会造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,从而降低信息的利用效率。数据集成旨在解决“信息孤岛”的问题,其核心任务就是将互相关“联的分布式异构数据源集成到一起,并维护数据源整体上的数据一致性,使用户能够以统一的方式访问这些数据源,提高信息共享利用的效率,实现数据重组的目的。用户产生新的数据集成需求,而不同的数据则存储在不同的数据源中,通过数据集成技术可以将来自不同数据源的数据进行统一化集成处理,完成各种异构数据的统一表示、存储和管理的功能,这些功能在数据集成系统中实现,最后形成数据结果反馈给用户。图4M是数据集成系统的模型。数据集成技术面临着如何适应大数据时代的数据需求复杂的问题,以及如何充分描述各种数据源格式以便进行发布和数据交换等难题。数据集成涉及多种计算机技术,如分布式对象技术、XML技术、面向对象技术。SQL扩充技术以及数据库访问接口技术等。数据集成系统需要将这些技术整合起来,从而使数据高效融合,消除“信息孤岛”,为组织带来数据的创新价值。(三)数据重组的案例丹麦癌症协会关于手机与癌症关系的研究以及美国的LEHD项目,是两个数据重组的成功案例,展示了数据重组的创新魁力。1.数据重组的医学贡献——丹麦癌症协会证明手机与癌症无关在移动互联时代,手机渗透到人们的工作、学习、社交、娱乐等方方面面,全球现已有60亿部手机,在一些发达国家或发达城市中,“人手一机”或“人手多机”的情景比比皆是。这么多的用户共同担心的一个问题是,手机在给

人们带来便利的同时,是否也会对人们的健康产生威胁?甚至一些报道声称,手机辐射会5!起癌症。丹麦癌症协会基于以往收集的数据通过数据重组的方式就这个问题进行了研究,并给出了答案。该研究以丹麦的42万手机使用者作为研究对象,搜集了这些对象1982年到1995年手机使用数据,同时,丹麦癌症协会还拥有丹麦所有癌症患者的信息。这项研究将这两类数据集相结合,并试图找寻两者之间的关系。研究发现,截止到2002年,这些使用过手机的42万丹麦人中有14249人被确诊患癌症。根据流行病学的预测,这样的人口规模的癌症发生率应该有大约1.5万例,也就是说,使用手机的用户癌症发生率并没有明显高于流行病学预测的癌症发生率,这就意味着使用手机与癌症的发生其实关系并不大。特别是白血病、脑癌、神经细胞癌等以往被猜测与使用手机紧密相关的癌症,在手机使用者中的发病率也不比其他种类的癌症高。通过这两个数据源的重组,丹麦癌症协会获得了一项人体健康领域的重要研究成果,即移动通信不会对人的健康产生隐忧。迄今为止,其他途径的研究也都表明这一结果,印证了丹麦这项基于大数据的研究具有科学性。这种依靠数据重组的方式来进行科学研究的案例极具指导意义。尽管这项研究的规模很大,但数据都是非常规范的,两个数据集都严格按照医疗和商业的质量标准进行采集。最重要的一点在于,这两个数据集在多年·96·前就都已经生成了,当时收集数据的目的也与这项研究毫无关系,而在多年后,经过数据重组,这些沉寂的数据依然可以焕发出新的光芒。2.政府数据重组的经典——美国LEHD项目LEHD全称为工作单位和家庭住址的纵向动态系统(longitudinalEm-ployerHouseholdDynamicsProgrsm),旨在整合美国的人口普查数据和全国各州的相关数据,为城市规划、社区建设、公交设置、商业选址等方面提供数据支持。在未建立这个项目前,这些数据是分散的。其中,普查部门掌握着全国每一个公民的年龄、性别、种族、住址等个人基本信息,但却没有他们的工作信息。而具体的工作单位的名称、失业保险、纳税记录等信息基本掌握在各个州政府手里,查询的难度之大可想而知。LEHD项目的目的就是要重组联邦政府和州政府等多个部门的数据,可以说,这是一个真正的大数据项目。图4--4是LEHD项目的数据整合框架。在该框架中,个人数据集来源于人口普查局和社会保障局,包含公民的年龄、性别、种族和个人住址,其中个人住址在工作职位数据集中也存在,这两个数据集通过“个人住址”这一字段相连接;工作职位数据集来源于州政府的劳工部门,包含失业保险、社会保险和报税记录等职位信息;工作单位数据集来源于州政府的劳工部门,包含行业类型、公司地址和公司职员数量等信息,其中以“公司地址”作为与工作职位数据集的连接字段。这样,三个数据集通过共有的数据项宇段连成了一个整体,这个系统在一开始就有60多亿条记录。图4--4LEHD项目的数据整合框架通过数据重组后的LEHD查询平台,可以查询一个城市的工作人口和居住人口的情况,其强大之处在于实现了数据的多维粒度分析。该系统可·97·以按照地区、邮编、选区、学区、人口普查片区等各层级对数据进行层层分析。这样,当一些突发事件发生时,就可根据这个系统给出的数据估算事发区域的人员情况,从而为救援提供决策支持。在服务机构选址上,一个区域的人员构成及其收人情况、消费水平等因素都是影响服务机构能否长远发展的重要指标,LEHD也可以提供非常完善的数据。2010年,LEHD项目又重组了国家气象局、联邦应急管理局、国家农业部、内务部四个单位的数据,推出了一项针对“公共应急管理”’的新应用。该应用整合了暴雪、火山、暴雨、洪水、飓风等恶劣天气、自然灾害、人为灾害的实时数据,每4个小时更新一次。当大规模的灾害发生时,系统就可以以最快的速度评

估哪些地区受到影响,以及受灾人数和人口特征,从而对灾区的疏散、撤离、补偿等公共服务进行合理的规划,将灾害带来的损失降至最低。hHD的案例清晰地反映出,大数据应用过程中的难点并不是没有数据,而是缺少数据的重组思维和能力。因而,专业技术人员在具体实践工作中应努力提升自身的数据重组能力,如此,才能使得数据分析更为深人,为决策提供更强有力的支持。数据的首要价值被使用后,可以再与其他数据重组,组成的新数据集比之前单个数据集的价值总和具有更多的价值,这就是大数据时代下数据重组的魁力。专业技术人员在工作中应深刻了解每个数据集的数据内容和结构,掌握多源数据融合的方法,努力挖掘不同数据集之间的关联关系,从而探寻出更多具有实际商业价值的、新颖的数据模式。二、数据扩展数据的潜在价值是一直存在的,即使数据一开始采集的目的相对单一,即使数据被搁置的时间比较久,但只要有新的分析、挖掘、整合的想法出现,这些旧的数据蕴含的价值就会被重复性地发掘出来,这正是大数据的迷人之处——无限的可扩展性。(一)数据扩展的含义保障数据的扩展性是保障数据再利用的重要前提,也就是说,在数据采集之初就要考虑到数据的可扩展性,使数据集能具有多样的用途。可以这样理解数据扩展:在采集数据的伊始,就尽可能多地采集数据,并考虑数据存在的各种潜在用途,使其具有可扩展性,最大化地寻求数据的潜在价值。可以说,数据扩展是寻找“一分钱两分货”的过程,在实践工作·98·中非常有意义。例如,现在许多超市内都安装了监控摄像头,其首要目的是为了防盗,认出扒手。现在,这些视频还可以用来跟踪用户的购买行为,比如,顾客在哪些货架前驻足的时间长,哪些产品会被一起搭配购买,什么时段客流量大等。利用这些视频,店主就可以合理安排商品上架,将经常一起被购买的产品摆放在一起;而通过研究客流量的情况,店主可以合理安排工作人员的工作时间,保障服务质量,获得更多的利润。由此,摄像头这项成本支出反而会转变成一项可以增加收人的投资。(二)数据扩展的应用数据扩展的应用非常广泛,下文从三个方面来分析其在商业运营中的重要作用。1.全面分析和定位客户为客户提供个性化的优质服务是现在最广为人知的大数据应用领域之一。数据的可扩展功能使得企业能更好地了解客户的行为和喜好。现在,许多企业都积极地收集社交媒体数据、测览器日志、评论数据和传感器数据等,从而全方位地了解他们的客户,创建用户的购买预测模型。Target(塔吉特)公司是美国第M大超市零售商,通过利用大数据分析,Target公司可以非常准确地预测出他们的客户中哪些是正在待产的孕妇,从而推送相关的母婴产品信息。首先,Target公司从迎婴聚会(BabyShower)登记表人手,对这些登记表里的顾客的消费数据进行建模分析,发现了许多非常有用的数据模式。比如,许多孕妇在怀孕的最初20周会大量购买补充钙、镁、锌的保健品;在怀孕第4个月的开始会购买许多大包装的无香味护手霜。以此,Ta4et公司选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target公司能够在很小的误差范围内预测到顾客的怀孕情况,因此Target公司就能早早地把孕妇相关商品的优惠广告寄发给顾客。更值得一提的是,为了避免对顾客形成干扰,产生隐私担忧,Tarset公司把孕妇用品的广告夹杂在其他类型的商品优惠广告当中,准妈妈们就不会意识到Target公司知道她们是孕妇,Target做到了没有干扰的销售。慢慢地,Target公司的大数据分析技术从孕妇这个细分顾客群开始普遍地向其他客户群体推广。在使用大数据进行预测的2002年到2010年间,Target公司的销售额从440亿美元增长到了670亿美元,由此可见,大数据分析对于一个企业的价值是多么的巨大。·99·通过Target公司的案例可以看出,想要通过数据扩展实现全面定位客户,

企业首先要重视自身的数据中心建设,要把采集顾客数据作为企业营销运营的首要目标;第二,建立采集数据的软硬件机制,以业务需求为准则,确定哪些数据是需要采集的;第三,建立科学的数据分析模型。国内的电商界对可扩展数据的研究也是方兴未艾,很多企业都已经将大数据的分析运用到了企业的客户定位之中。比如京东同站,通过对用户下单和搜索数据的分析,可以计算出客户的家里是否有孩子,有多大的孩子。分析这些是为了帮助京东快递员在上门送货时,注意敲门声音的大小和敲门时间的长短,以保障不影响到客户的生活。在这里,订单和搜索数据被扩展利用在分析用户的家庭组成上,并且这种分析不是为了探究用户的隐私,而是为了更加体贴用户,为用户提供更贴心的服务。毋庸置疑,这种做法可以提高用户体验,从而增加用户粘性,这是未来各大电商企业要重点考虑的问题之一。这就是可扩展数据的力量。2.优化企业的业务流程大数据的扩展能力也越来越多地用于优化企业的业务流程。企业要广开思路,多角度地利用一切可以为其所用的数据。例如,利用社交媒体数据、网络搜索趋势以及天气预报信息,零售商们可以挖掘出许多具有预测性的信息,帮助优化其商品库存。美国东北部是一个多暴风雪的地区,每当暴风雪来临前夕,百姓都要大量采购生活补给品,如水、面包、火腿、肉类、蔬菜等,以防暴风雪来临后不能出门。如果零售商们能合理运用天气预报的信息,就可以对顾客的购买行为进行合理的预测,调整供货量,获得最大收益。美国气象频道(WeatherChannel)作为一家有线电视网络,基本的工作是预测天气,它能告诉电视观众纽约周三下雨的概率、休斯敦周六的酷热指数会达到多少、巴尔的摩周日会有多潮湿等。现在,该公司凭借其积累的70多年的数据,可以预测出用户什么时候最有可能购买杀虫剂等商品。这些积累的数据包括覆盖北美等地的气象信息和用户查看天气的信息,运用的方法就是大数据的分析方法,其中数据扩展占有重要的地位。2012年,WeatherChannel更是把公司的名字改为WeatherCo.(气象公司),以反映其数据业务的增长,它已转身成为一家通过分析人们查看天气情况的时间、地点和频次的数据而预测消费者行为的机构。WeatherCo.董事长兼CEO大卫·肯尼(DavidKenny)认为:“计·100·划做某件事时,人们通常都会查看天气状况,我们依据人们查看天气的时间地点和当时的天气情况来分析人们计划要做的事情。”例如,WeatherCo.发现,在芝加哥市高于平常水平的温度的第一天,空调销量会出现上涨;而在闷热的亚特兰大,人们则是在比平常热的天气到来两天后去买空调。WeatherCo.长期以来都向航空公司和能源交易商销售天气预报服务,因为,这两类企业的销售额与天气情况有密切的关系,人们会根据天气情况决定自己是否要做飞机旅行或者决定家庭是否要购买更多的水、电。气。现在,该公司通过结合天气信息以及来自移动设备的数据,向更加广泛的消费品零售公司推广他们的广告平台_以帮助商家投放高度精准的广告,图4--Al反映了WeatherCo.根据不同的天气情况帮助零售商推进具体商品。图4----WeatherCo.帮助零售商精准推送广告WeatherCo.将原来只用作天气预报的数据再次用在多个领域,并通过数据分析预测消费者行为,帮助其他企业投放广告,使数据转化成具有巨大商业价值的资本,优化了自身业务流程的同时也帮助其用户完善了业务结构,实现了双赢,这其实正是数据可扩展性的体现。·101·3.优化企业智能设备的性能数据扩展和大数据分析还可以让机器和设备变得更加智能和自主化。在强调数据扩展性方面,谷歌一直是做得最好的公司之一。这些年,谷歌公司一直致力于利用大数据技术与工具来运行它的街景自驾汽车(GOogleStreetViewCar)。谷歌街景汽车上没有司机,它是一种无人驾驶汽车,

汽车上配置的相机、GPS设备(GlobalPositioningSystem,全球定位系统)以及强大的计算机和传感器保障它在道路上安全行驶,图4--m展示了谷歌街景汽车的工作状态。为了让这些无人驾驶汽车能安全往返于各种路况之中,谷歌在汽车的顶部安装了激光测距仪和高分辨率摄像机,实时地生成周围环境的详细3D地图,地图信息将反馈给汽车的传感器,使得汽车能避开障碍并遵守交通规则。这些汽车的前后保险杠上还装有四个雷达,可以让汽车能应对快车道上的各种情况,位于后视镜附近的摄像机则用于探测交通灯。而GPS、惯性测量单元和车轮编码器等设备则被用于判断汽车的实时位置。谷歌街景汽车在世界各地拍摄街景图片,让互联网用户即使足不出户也能“游览”各国风景。然而拍摄街景照片并不是谷歌街景汽车的全部任务,它现在还被用来探测一个地区是否有甲烷泄漏。谷歌研究团队和美国环保协会在三辆街景汽车上装备了甲烷检测仪,并把它们派到了美国的波士顿、纽约斯塔腾岛和印第安纳波利斯,这三辆汽车在当地把一些已经老化的、最有可能发生泄漏的输气管道标记了出来。这些街景的数据被扩展应用在了安全隐患的探测上,谷歌和美国环保协会根据数据的内容向当地的监管部门反映这些隐患,从而帮助他们展开调查和修复。·102·此外,很多企业通过广泛应用大数据扩展对货物配送路线进行优化,在货车上安装地理定位或无线电频率识别传感器来追踪货物的实时位置信息,并且通过整合实时交通数据为司机提供最优化的行车路线。第四节数据的估值与折旧一、数据估值数据具有市场价值,因为数据可以降低决策的不确定性,产生经济和社会效益。在大数据时代,数据已经成为一种重要的商品,具备作为商品的三个条件:一是劳动产品,数据是人们利用各种手段采集、存储起来的,附加了人类的劳动;二是能满足人们的某种需要,通过使用数据,可以辅助决策,达成组织的目标;三是可以用来交换,大数据交易目前已经成为一种常态。正是因为数据的这种特性,决定了数据可以像其他商品那样进行估值,即可以根据数据在其生命周期中的地位来评定它当时的价值。如今,数据与品牌、人才和战略这些非有形资产一起被纳入到“无形资产”的范畴中进行估值。(一)数据的价值与数据估值数据的价值包括现实价值和潜在价值。一般情况下,人们都是按照预定的目的来采集数据的,将采集到的数据用于解决预定的问题。例如,前面提到的丹麦癌症协会,它拥有丹麦所有癌症患者的数据,这些数据原本是用来统计丹麦公民癌症分布情况,目的是为医疗提供决策服务的,这种可以满足数据使用主体现实需求的价值,就是数据的现实价值。而同样是这些数据,后来又被用来研究手机辐射与癌症的关系,这些数据又有了新用途,发挥了新作用,这种数据本身所具有的、需要通过一定的条件、环境,才能满足数据使用主体某种可能需求的价值,是数据的潜在价值。互联网研究专家舍恩伯格认为,“数据的真实价值就像漂浮在海洋上的冰山,第一眼只能看到冰上的一角,而绝大部分则隐藏在表面之下”。大数据的价值并不仅仅局限于它初始被采集的目的,更在于它之后可以服务于其他目标而被重复使用。因此,大数据的价值是所有这些用途的总和,并且将远远大于其初次使用的价值。随着更便宜的存储和分析技术。·103·分析工具的发展,以及“大数据观”的建立,数据估值更重视大数据“表面下”的“隐藏价值”或者说“潜在价值”。数据的潜在价值也常常通过物理动能转化的例子来解释。在物理中,物体储存着“潜在的”能量,在未动时处于休眠状态,比如放置在山顶的小球,只要小球被轻碰而滚下山坡,它自身的潜在能量就会转化为“动能”,影响其他物体。数据也一样,当其基本用途完成时,数据的价值依然存在,只是被隐藏起来了,当有一个外力给予这些数据一个动力时,它们的价值就可以被再次释放出来,而这种外力

就是数据创新和数据再利用的思维、工具和技术。数据潜在价值的存在使得数据的基本用途完成后也不应被删掉,因为数据蕴含的潜在价值是无穷的,可以带来无限的社会效益和经济效益。通常,确定一个公司的价值需要查看这个公司的“账面价值”,这种账面价值通常是“有形资产”的价值总和。但在大数据时代,数据成为企业中一种至关重要的资产,许多企业甚至将数据资产作为其企业的核心竞争力和产品,传统的“账面价值”已经不能反映出这些公司的“市场价值”了,那么在这种情况下,该如何将数据加人资产核算中呢?“无形资产”是用以表示公司“账面价值”与“市场价值”之间的差额的会计概念。如今,数据渐渐地被纳入到“无形资产”的范畴中。数据的估值绝不是简单的基本用途的加总,因为数据的大部分价值都是潜在的,是二次利用甚至多次利用而提取出来的。而数据的采集者和拥有者,无论再具有远见、再有能力,也不可能将数据再利用的所有可能方式都预测到,并且很多数据可能在收集后的十年、二十年才可能被再利用。因此,即使到今日,也没有一个绝对有效的方式来计算数据资产的价值,但还是存在一些尝试方法的。例如,OECD(OrsanizationforEconomicCo-operationandDevelopment,经合组织)曾对互联网数据的市场价值进行过估计,研究成果佐证了大数据的巨大潜在价值:大数据可以为金融。农业、制造业、保险业、医疗业等传统领域带来“创造性破坏”,从而推动产业变革和创新,激发新的增长动力。麦肯锡公司的研究报告也指出,美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够降低8%的美国医疗卫生支出;充分利用大数据的零售商能将其经营利润提高60%以上。同时,利用大数据可以帮助政府提高其行政管理的运作效率。由此可见,随着人们数据存储、数据重组、数据扩展能力的日益提·104·高,从数据中提取潜在价值的能力也会显著提高,对数据的估值应更重视数据潜在价值的评定。(二)数据估值的方法数据估值包括对数据现实价值的估值以及对数据潜在价值的估值。通常,现实价值满足了数据使用主体的现实需求,其社会效益和经济效益都已体现,因此估值相对比较容易。数据估值的难点在于数据的潜在价值。这里介绍两种数据资产估值方法:基于五维度的数据资产价值评估模型和将数据授权给数据定价市场的估价方法。l,基于五维度的数据资产价值评估模型有学者提出了基于五维度的数据资产价值评估模型,这五个维度分别是规模、活性、多维度、关联度和颗粒度,这五个维度没有绝对的参考数值,需要具体到每个行业,根据需要来灵活调整和使用这个评价模型,如图4--ed所示。③图4--st基于五维度的数据资产价值评估模型门)颗粒度。颗粒度反映数据的精细化程度,越细化的数据价值也就越高,太过宏观的数据反而价值含量较低。细化到个人、单个商品的详细数据,才能带来前所未有的洞察力。颗粒度指标反映的是精细化管理的思想。现在许多城市提倡“网格化管理”,将管理单元细化到了100mx100m的正方形,甚至是更小的网格。网格里的所有事物都被精细地刻画和记录着,包括一个人、一座房、一个门牌号、一个路灯、一棵树甚至一·105·朵花,这些数据的位置、大小、静态和动态轨迹都清清楚楚地记录在数据库中,这些数据通过数据挖掘、关联关系分析等方法会为地区带来巨大的价值,这一点已为实践所证明。这就是社会治理水平在向“精细化管理”发展的一个重要表现。(2)多维度。该指标借用空间维度的概念,表示数据来源的丰富性。每增加一个数据维度都会对数据的分析和判断产生颠覆性的影响。数据的来源越丰富越全面,越能全面反映一个事物的全貌,自然越具有价值。以个人的信用评级为例,除了传统的用户工龄、居住地、银行账号开设时间外,许多金融机构还将用户的教育水平、职业等数据维度纳人评级的考核中。

本文来源:https://www.bwwdw.com/article/djd3.html

Top