大数据综述

更新时间:2024-03-16 17:42:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

大数据综述

大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、个人决策的过程和方式。随着科技和社会的发展进步加上计算机和网络技术的兴起,社交网络、物联网、云计算以及多种传感器的广泛应用,使数量庞大,种类众多,时效性强为特征的数据的不断涌现,引发了数据规模的爆炸式增长[1]。

国际数据公司(International Data Corporation,IDC)研究报告称:2011 年全球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律(全球数据量大约每两年翻一番),预计 2020 年将达到 35ZB。与此同时,数据复杂性也急剧增长,其多样性(多源、异构、多模态、不连贯语法或语义等) 、低价值密度(大量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分析)等复杂特征日益显著。预示着全球已然进入了“大数据”时代[2]。 1.大数据国外研究现状 1.1大数据相关理论的研究

“大数据”这一术语从2008年开始在科技领域中出现,随之引起学术界的广泛研究兴趣。《Nature》与《Science》杂志分别出版专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。世界各国政府也高度重视大数据领域的研究和探索,并从国家战略的层面推出研究规划以应对其带来的挑战。虽然大数据研究已在全球范围内成为热点和焦点,但目前国内外大数据相关的研究仍然处于起步阶段,面向管理和决策的大数据研究与应用逐步兴起,研究理念、思路、方法和学术路线等方面的探索已经开始全面展开[3]。

大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义。目前,大数据已经在政府公共管理、医疗服务、零售业、制造业,以及涉及个人的位置服务等领域得到了广泛应用,并产生了巨大的社会价值和产业空间。麦肯锡公司在一份研究报告中,根据西方产业数据预测,大数据的应用将能为欧洲发达国家的政府节省1000亿欧元以上的运作成本,使美国医疗保健行业的成本降低8%,约每年3000多亿美元,并使得零售商的营业利润率提高60%以上[4]。市场调研机构IDC的“数字宇宙”研究报告中则预测,大数据技术与服务市场在2015年将达到169亿美元,实现40%的年增长率,为IT与通信产业增长率的7倍[5]。大数据中蕴含的巨大商业价值、科学研究价值、社会管理与公共服务价值以及支撑科学决策的价值正在被认知与开发利用。 1.2大数据关键技术进行的研究 1.2.1批量数据处理技术

数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力。Mayer-Schonberger 在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果[6]。因此,大数据的处理对于当前存在的技术来说是一种极大的挑战。目前,人们对大数据的处理形式主要是对静态数据的批量处理、对在线数据的实时处理,以及对图数据的综合处理[7]。

批量大数据来源:在互联网领域中,批量大数据来源主要包括:(a)社交网络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据。对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验。(b)电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量。(c) 搜索引擎:Google、百度搜索等大型互联网搜索引擎将会产生大量的数据信息[8]。

主要批量数据处理系统:由Google公司2003年研发的Google文件系统GFS和2004年研发的MapReduce编程模型以其Web环境下批量处理大规模海量数据的特有魅力,在学术界和工业界引起了很大反响。凭借其适合非结构处理、大规模并行处理和简单易用等优势,在互联网搜索和其他大数据分析技术领域取得重大进展,成为主流技术[9]。

1.2.2流式数据处理技术

通俗而言,流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特性,或者有其他的有序标签。数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的。因此流式数据的处理系统要有很好的容错性与异构数据分析能力,能够完成数据的动态清洗、格式处理等.并且,流式数据是活动的(用完即弃),随着时间的推移不断增长,这与传统的数据处理模型(存储→查询)不同,要求系统能够根据局部数据进行计算,保存数据流的动态属性。

流式计算的应用场景:流式计算的应用场景较多,典型的有两类:(a) 数据采集应用:数据采集应用通过主动获取海量的实时数据,及时地挖掘出有价值的信息。当前数据采集应用有日志采集、传感器采集、Web 数据采集等。日志采集系统是针对各类平台不断产生的大量日志信息量身订做的处理系统,通过流式挖掘日志信息,达到动态提醒与预警功能。传感器采集系统(物联网)通过采集传感器的信息(通常包含时间、位置、环境和行为等内容),实时分析提供动态的信息展示,目前主要应用于智能交通、环境监控、灾难预警等。Web 数据采集系统是利用网络爬虫程序抓取万维网上的内容,通过清洗、归类、分析并挖掘其数据价值。(b) 金融银行业的应用:在金融银行领域的日常运营过程中会产生大量数据,这些数据的时效性往往较短,不仅有结构化数据,也会有半结构化和非结构化数据.通过对这些大数据的流式计算,发现隐含于其中的内在特征,可帮助金融银行进行实时决策。这与传统的商业智能(BI)分析不同,BI 要求数据是静态的,通过数据挖掘技术,获得数据的价值.然而在瞬息万变的场景下,诸如股票期货市场,数据挖掘技术不能及时地响应需求,就需要借助流式数据处理的帮助。

流式数据处理系统:流式数据处理已经在业界得到广泛的应用,典型的有 Twitter 的 Storm,Facebook 的 Scribe,Linkedin 的Samza,Cloudera 的 Flume,Apache 的 Nutch。

1.2.3交互式数据处理技术

在大数据环境下,数据量的急剧膨胀是交互式数据处理系统面临的首要问题。互联网领域。在互联网领域中,主要体现了人际间的交互.随着互联网技术的发展,传统

的简单按需响应的人机互动已不能满足用户的需求,用户之间也需要交互,这种需求诞生了互联网中交互式数据处理的各种平台,如搜索引擎、电子邮件、即时通讯工具、社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息。此外,各种交互式问答平台,如百度的知道、新浪的爱问以及 Yahoo!的知识堂等。由此可见,用户与平台之间的交互变得越来越容易,越来越频繁。这些平台中数据类型的多样性,使得传统的关系数据库不能满足交互式数据处理的实时性需求。

目前,各大平台主要使用NoSQL类型的数据库系统来处理交互式的数据,如 HBase[10]采用多维有续表的列式存储方式;MongoDB[11]采用 JSON格式的数据嵌套存储方式。大多 NoSQL 数据库不提供 Join 等关系数据库的操作模式,以增加数据操作的实时性。

交互式数据处理系统:交互式数据处理系统的典型代表系统是 Berkeley 的 Spark 系统和 Google 的 Dremel 系统。 1.2.4图数据处理技术

图由于自身的结构特征,可以很好地表示事物之间的关系,在近几年已成为各学科研究的热点。图中点和边的强关联性,需要图数据处理系统对图数据进行一系列的操作,包括图数据的存储、图查询、最短路径查询、关键字查询、图模式挖掘以及图数据的分类、聚类等.随着图中节点和边数的增多(达到几千万甚至上亿数),图数据处理的复杂性给图数据处理系统提出了严峻的挑战。图能很好地表示各实体之间的关系,因此,在各个领域得到了广泛的应用,如计算机领域、自然科学领域以及交通领域。

当今世界上比较流行的3 个典型的图数据处理系统,包括 Google 的 Pregel 系统,Neo4j 系统和微软的Trinity 系统。 1.3大数据与云计算相结合的研究

大数据分析是大数据研究领域的核心内容之一。然而云计算技术对大数据的分析具有得天独厚的优势。Google 首席经济学家Hal Varian 教授指出:“数据正在变得无处不在、触手可及;而数据创造的真正价值,在于我们能否提供进一步的稀缺的附加服务。这种增值服务就是数据分析[。”数据的背后隐藏着信息,而信息之中蕴含着知识和智慧。大数据作为具有潜在价值的原始数据资产,只有通过深入分析才能挖掘出所需的信息、知识以及智慧.未来人们的决策将日益依赖于大数据分析的结果,而非单纯的经验和直觉。

早在 2009 年, 联合国就启动了 “全球脉动计划”, 拟通过云计算技术对大数据进行分析进而推动落后地区的发展, 2011 年 5 月,全球知名咨询公司麦肯锡( Mckinsey and Company) 发布了 《大数据: 创新、竞争和生产力的下一个前沿领域》[12]报告,报告指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素[13]而 2012 年1 月的世界经济论坛年会也把“云计算与大数据”作为重要议题之一。2012 年 3 月, 美国政府提出 “大数据研究和发展倡议”, 发起全球开放政府数据运动, 把大数据的分析放在重要的战略位置. 英国政府也将大数据分析技术作为重点发展的科技领域, 在发展 8 类高新技术的 6 亿英镑投资中, 大数据的注资占三成。2014 年 7 月, 欧盟委员会也呼吁各成员国积极发展大数据技术,并将采取具体措施发展大数据业务. 例如建立大数据领域的公私合作关系;依托

“地平线 2020” 科研规划, 创建开放式数据孵化器;成立多个超级云计算中心;在成员国创建数据处理设施网络[14]。

评述:国外在对大数据的行研究,主要集中在对大数据格式的转化、数据转移和大数据及时处理的问题上,但是由于大数据具有异构性和异质性的特点,所以学者需要设法提高大数据格式转化的效率和大数据的处理速率,目前国外学者主要从批量数据、流式数据、交互式数据和图数据处理技术进行研究,目的在于加速大数据的处理和计算能力从而有效的提高大数据的应用价值。 2.大数据国内研究现状

日前,IDC的首份关于大数据的报告《中国大数据技术与服务市场2012-2016年预测与分析》发布,该报告显示大数据市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。 该报告指出中国已进入大数据时代。

IDC中国负责商业分析软件市场研究的经理潘永花指出:“从全球看,大型的IT公司普遍增加了对大数据相关技术和产品的投资,同时也出现了不少新的关注大数据的小型公司。在中国,互联网巨头是率先使用大数据技术的用户,但他们主要基于开源软件自主开发大数据应用。电信和银行领域开始对大数据技术和服务产生浓厚的兴趣,将会从非关键应用开始尝试使用大数据解决方案。”

在中国,移动互联网、电子商务、物联网以及社交媒体的快速发展已经使我们进入了大数据时代。潘永花认为,大数据市场不是由某些特定产品所驱动的,每种应用实例都需要不同层次的产品组合,包括服务器、存储、网络、软件和服务等,以获得更好的应用效果。 2.1大数据相关理论研究

在我国学术界和产业界也早已经开始高度重视大数据的研究和应用的工作,并纷纷启动了相应的研究计划。

在政府层面,科技部 “十二五” 部署了关于物联网、云计算的相关专项。 2012 年, 中国科学院院长白春礼院士呼吁中国应制定国家大数据战略。同年 3 月,科技部发布的《“十二五” 国家科技计划信息技术领域 2013 年度备选项目征集指南》中的 “先进计算” 板块己明确提出 “面向大数据的先进存储结构及关键技术”,国家 “973 计划”、“863 计划”、国家自然科学基金等也分别设立了针对大数据的研究计划和专项。地方政府也对大数据战略高度重视,2013 年上海市提出了《上海推进大数据研究与发展三年行动计划》,重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的通知》,2014 年广东省成立大数据管理局负责研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用工作。贵州、河南和承德等省市也都推出了各自的大数据发展规划。

在学术研究层面, 国内许多高等院校和研究所开始成立大数据的研究机构。与此同时,国内有关大数据的学术组织和活动也纷纷成立和开展。2012 年中国计算机学会和中国通信学会都成立了大数据专家委员会, 教育部也在人民大学成立 “萨师煊大数据分析与管理国际研究中心”。近年来开展了许多学术活动,主要包括:CCF 大数据学术会议、中国大数据技术创新与创业大赛、大数据分析与管理国际研讨会、大数据科学与工程国际学术研讨会、中国大数据技术大会和中国国际大数据大会等。

在产业层面,国内不少知名企业或组织也成立了大数据产品团队和实验室,力争在大数据产业竞争中占据领先地位。 2.2大数据关键技术研究

国内,大数据技术的发展呈现良好势头。华为提供了基于x86服务器的SmartVision大数据处理解决方案,催生数据基础架构的革新。SmartVision方案引入了流处理机制、提供统一的存储处理平台、提供基于虚拟机的弹性服务方案,是一个系统性的工程,在存储、计算、网络等硬件方面拥有完整的多层次的产品线。在“2012华为云计算大会”上,推出了 OceanStor MVX 大数据存储解决方案,存储系统是融合了 Scale-out NAS、Scale-out Database 和Scale-out Backup,实现存储、分析、备份多位一体,面向大数据存储的集群存储系统[15]。

周江等人提出了面向大数据分析,用于满足数据中心和互联网应用服务的分布式文件系统Clover。该系统是一个虚拟文件系统,采用多元数据服务器架构,为系统客户提供高可扩展和高可用的存储服务.它采用基于目录划分和一致性 Hash算法的两级映射机制来管理名字空间,提高了系统的可扩展性,同时引入分布式全局目录表,减少了元数据迁移带来的开销.它基于共享存储池设计,利用改进的两阶段提交协议,解决了扩展元数据服务所带来的分布式元数据操作一致性问题.Clover还提出了基于共享存储池的高可用机制,提高了元数据的可靠性[16].

孟小峰等人利用空间角度和距离对整个数据进行划分,考虑到MapReduce在计算中slave节点间不进行信息实时共享的特性,提出了一种简便的数据筛选方法。从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行研究[17][18]。 2.3大数据与云计算相结合的研究 2013年12月13-15日,国际高级云计算与大数据会议(International Conference om Advanced Cloud and Big Data,CBD)在南京东南大学成功召开。Bai Li提出一种基于内部反馈信息的人工蜂群算法,并针对蛋白质序列应用与粒子群优化算法、标准人工蜂群算法和差分进化算法进行比较,验证了该算法的有效性和鲁棒性。Zheng zhong提出一种新的基于计算智能和贝叶斯模拟的通用算法策略。Zhe Liu提出了改进的马尔科夫链蒙特卡洛的1目标辨识方法,并用仿真实例验证了算法的有效性。

广大学者认为:大数据的发展离不开云计算技术,云计算支撑着大数据存储、管理以及数据分析等。因此学者把目光聚集在大数据与云计算的相结合的研究上。大数据与云计算它们都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce 等并行处理技术也都是云计算的关键技术。学者余从国认为云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地。大数据若与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。

评述:综观国内对大数据领域的研究和应用发展现状可见,大数据相关的研究与应用目前仍然处于起步阶段,学术研究大多局限于宏观层面; 基于互联网和社会媒体的企业大数据研究与应用亟需进一步的深入开展;现有的大数据研究大多立足于信息科学,侧重于大数据的获取、存储、处理、挖掘和信息安全等方面,鲜有

从管理学的角度探讨大数据对于现代企业生产管理和商务运营决策等方面带来的变革与冲击的研究。

3.总评:由于大数据提出时间较晚,国内外相关的学术研究尚处在探索阶段,已有的研究主要围绕两条研究主线。

第一条研究主线是数据科学研究,主要关注大数据的技术框架与关键技术。本领域的研究主要集中于大数据的储存与处理。大数据虽来源广泛,但其最基本处理流程相同,即为在合适的工具辅助下,对广泛异构旳数据源进行抽取与集成,结果按照一定的标准统一储存,主要处理模式可分为流处理与批处理。大数据研究的重要目标之一就是提出类似关系型数据库的科学理论来指导当前现实中越来越多的海量非结构化数据的存储与处理。

第二条主线是社会科学的大数据研究,集中在商业智能与分析领域。在大数据时代,公司需要能够确定、联合以及管理多来源的数据,通过“数据挖掘”来构建模型用来预测和优化产出,试图从模型中寻找商业机会或威胁,而不是像从前决策那样由一个问题或假设展开,这彻底颠覆了企业决策的过程,且大数据为决策提供事后评价。

通过以上文献综述可见,现有的研究基本遵循两个核心理论的逻辑:一是基于信息价值论的大数据商业价值研究。信息价值论的核心是信息的价值具有针对性、及时性和准确性。第二是探讨大数据价值增值过程与路径。虽然国内外学者开始关注大数据的商业价值研宄,但是这些研究尚处于起步阶段,缺乏成熟的理论体系和可供借鉴的研究成果。

主要参考文献:

[1] 马建光.大数据的概念、特征及其应用[J]. 国防科技, 2013,34(2):10-18. [2] GANTZ J, REINSEL D. Extracting value from chaos[C]. IDC iView, 2011: 1–12. [3] 张引.大数据应用的现状与展望[J].计算机研究与发展,11(50):216-233. [4] 陶雪娇.大数据研究综述[J]. 系统仿真学报,2013,(25):142-147 .

[5] 李国杰.大数据研究的科学价值[J].中国计算机学会通信, 2012, 8(9): 8-15.

[6] Mayer-Schonberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think[J]. Houghton Mifflin Harcourt, 2013. 1(5):33-41.

[7] Sun DW, Zhang GY, Zheng WM. Big data stream computing:Technologies and instances[J].Journal of Software, 2014,25(4):839-862.

[8] 程学旗. 大数据系统和分析技术综述[J]. 软件学报, 2014,25(9):1889-1908. [9]Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1): 107-113.

[10] Melnik S, Gubarev A, Long JJ, Romer G, Shivakumar S, Tolton M, Vassilakis T. Dremel: Interactive analysis of Web-scale datasets. Proc. of the VLDB Endowment, 2010,3(1-2):330-339.

[11] Malewicz G, Austern MH, Bik AJ, Dehnert JC, Horn I, Leiser N, Czajkowski G. Pregel: A system for large-scale graph processing. In: Proc. of the 2010 ACM SIGMOD Int’l Conf. on Management of Data. ACM, 2010. 135-146.

[12]Labrinidis A, Jagadish HV. Challenges and opportunities with big data. PVLDB, 2012,5(12):2032-2033.

[13] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skills: New analysis practices for big data. PVLDB, 2009,2(2): 1481-1492.

[14]任磊,杜一,马帅. 大数据可视分析综述[J]. 软件学报, 2014, 5(9): 1909-1936. [15]CT 论坛.华为 SmartVision 大数据解决方案[Z]. 2012 http://ec.ctiforum.com. [16] 周江. 面向大数据分析的分布式文件系统关键技术[J]. 计算机研究与发展, 2014,51(2):382-39.

[17]孟小峰,慈祥.大数据管理:概念、技术与挑战.计算机研究与发展,2013,50(1):146-169.

[18] 慈祥,孟小峰. 一种云环境下的大数据Top—K查询方法[J]. 软件学报, 2014,25(4):813-825.

[19]冯芷艳.大数据背景下商务管理研究若干前言课题[J].管理科学学报,2013,16(1):5-6.

[20]王珊.架构大数据:挑战、现状与展望[J].计算机学报,2011,10(34),1745-1750.

本文来源:https://www.bwwdw.com/article/tei8.html

Top