中国大数据技术与产业发展白皮书2013
更新时间:2023-09-02 12:11:01 阅读量: 教育文库 文档下载
序 言
近两年来,大数据浪潮以排山倒海之势席卷全球,既提供巨大的机遇,也带
来一系列的挑战。为了推动大数据科学技术和产业的良性发展,中国计算机学会于2012年6月成立了“大数据专家委员会”,其宗旨是探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。在中国计算机学会大数据专家委员会精心组织下,花了大半年时间撰写了这本《中国大数据技术与产业发展白皮书(2013年)》。
中国计算机学会大数据专家委员会的110位专家(不包括最近正在遴选的第
三批专家委员)来自大学、科研单位、企业和政府部门,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等各个不同的领域,白皮书的编写集中了各个领域众多专家的知识和智慧,一定程度上反映了我国大数据学术界和产业界的共识。
组织撰写《中国大数据技术与产业发展白皮书》的目的在于为业界梳理大数
据应用现状及发展趋势,为政府制定推动大数据产业发展的政策提供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。白皮书包括六部分内容,第一章介绍大数据的发展背景,第二章阐述大数据典型应用领域的现状,第三章阐述大数据技术体系的发展现状,第四章讨论大数据IT产业链与生态环境,第五章分析了大数据人才资源情况,第六章探讨大数据的发展趋势并提出相关建议。
大数据成为热点以后,众说纷纭。推动者认为是“上帝给中国崛起准备的礼
物”;泼冷水者认为是又一场“泡沫”。实际上所谓大数据主要是干三件事:一件是提高“数据意识”,用已经掌握的技术大力推动数据产业,这方面主要是企业界要做的事。在企业看来,不管是大数据还是小数据,只要能给企业带来价值,就是好数据。对于数据意识薄弱的发展中国家,经过大数据浪潮的洗礼,提高对数据资源的掌控能力,无疑是一件好事。第二件事是解决现有计算机系统和软件不能对付急剧增长、种类繁多的数据(尤其是网络数据)这一挑战问题,研究各种采集、整理、存储、处理和呈现大数据的变革性技术。各国专家对大数据的定义大都是着眼于这一挑战,这主要是科技界(包括大企业的研发机构)要做的事。介于这两者之间的第三件事是,推广近几年开始应用的不同于传统事务处理、传统数据库和小样本建模分析技术的大数据处理新方法,如深度学习、MapReduce 、
Hadoop软件和数据中心的分布式服务器集群等技术。这是从传统的数据处理转向大数据处理的过渡阶段。
本白皮书洋洋洒洒8万字,其中分量最重的是第二章和第三章。第二章介绍
大数据的典型应用,对应上述第一件事和第三件事。我国的大数据应用刚刚开始,有些应用的数据规模可能还不够大,采用的方法也许不够新,但新兴产业是“用”出来的,只有广泛应用才能发现技术差距和需要突破的技术壁垒。发现典型的大数据应用案例,宣传推广应用大数据技术的经验是本白皮书的主要动机,今后我们会更加关注应用案例的分析介绍。
第三章分析大数据技术体系的现状,对应上述第二件事。专家委员中多数是
科研工作者,最熟悉的是本领域科学技术研究的进展,最擅长的是探讨技术发展趋势,分析科学研究和技术开发中面临的问题与挑战。本白皮书的主要价值可能体现在对大数据技术的分析方面。为了反映专家们的群体倾向,专家委每年做一次大数据技术发展趋势的年度预测,通过投票方式将最受关注的科学、技术、产业、应用、政策等相关变化趋势挑选出来。这部分内容反映在第六章6.2.2节“大数据的技术发展趋势”中,希望能对读者有所启迪。在其他几章,企业界和政府部门的专家也表达了一些真知灼见,如第四章提出的大数据产业链全景图、国内外大数据产业发展呈现的四个趋势、大数据产业发展的主要瓶颈等都有独到的观点。第五章把大数据人才资源问题独立出来专门分析,是因为这是一个十分重要而紧迫的大问题,需要各方面高度重视。
由于时间和篇幅有限,白皮书只选择的部分发展较好的典型应用领域进行介
绍,还有很多领域的大数据应用情况没有纳入白皮书。在后续工作中,大数据专家委会将继续不断完善和丰富白皮书的内容,对于特色行业或应用领域,会进行更为详细的调研,出版有针对性的面向行业应用单行本。本白皮书是专家委第一次组织撰写,虽反复修改了十余次,但书中肯定还存在一些内容和文字的错误,撰写组织工作也有很多不当之处,希望产业界和学术界的专家学者和广大读者提出批评和建议,共同推动中国大数据技术与产业的发展。
李国杰
2013年12月1日
致 谢
众多大数据专家委委员参与了白皮书的撰写工作,其中,第一章大数据的发
展背景部分主要由赵国栋完成,第二章大数据典型应用现状由潘柱廷、苗凯翔和张自力负责整理,其中互联网与大数据由沈烁、查礼、雷涛等撰写;网络通信与大数据由童晓渝、孙少陵、罗圣美、张宝峰等撰写,网络空间安全与大数据由潘柱廷、金波、杜跃进、何利文、胡晓峰等撰写;城镇化、智慧城市与大数据由苗凯翔、李剑等撰写;金融与大数据由赵国栋、石勇、白硕等撰写;健康医疗与大数据由苗凯翔等撰写;生物信息、制药与大数据由胡斌等撰写。第三章大数据技术体系现状由杜小勇、舒继武、黄宜华、王文俊、李翠平、于戈、刘伟、袁晓如等撰写,第四章大数据IT产业链与生态环境由朱扬勇、施水才、齐红威等撰写;
第五章大数据人才资源由朱扬勇、王元卓、靳小龙等撰写,第六章主要由李国杰、程学旗、潘柱廷、王元卓、靳小龙等撰写。程学旗、王元卓、靳小龙负责材料组织和统稿等工作。方锦清、张学工、季统凯、邓波、张师超、陈继东、王意洁、王国胤、周霞、顾宁等大数据专家委委员积极参与了白皮书的撰写,不仅提供了素材,还参与了白皮书的修改工作。由于白皮书经过了多次反复的修改,对参与专家的统计可能还有遗漏,在此表示歉意。对所有参与白皮书编写的专家表示感谢。
目 录
第一章 大数据的发展背景 ............................................ 1
1.1大数据的起源 .................................................. 1
1.2大数据的概念和内涵 ............................................ 9
1.3大数据的发展历程 ............................................. 12
1.4大数据的热点问题 ............................................. 18
1.5各国大数据发展战略 ........................................... 19
第二章 大数据典型应用现状 ......................................... 24
2.1 互联网与大数据 ............................................... 24
2.2 网络通信与大数据 ............................................. 27
......................................... 29 2.3 网络空间安全与大数据
2.4 城镇化、智慧城市与大数据 ..................................... 33
2.5 金融与大数据 ................................................. 36
............................................. 39 2.6 健康医疗与大数据
2.7 生物信息、制药与大数据 ....................................... 41
第三章 大数据技术体系现状 ......................................... 45
3.1 大数据采集与预处理 ........................................... 45
3.1.1问题与挑战................................................ 45
3.1.2 主要进展 ................................................. 47
3.1.3 发展趋势 ................................................. 47
3.2 大数据存储与管理 ............................................. 48
3.2.1 问题与挑战 ............................................... 48
3.2.2主要进展.................................................. 49
3.2.3发展趋势.................................................. 53
3.3 大数据计算模式与系统 ......................................... 56
3.3.1问题与挑战................................................ 56
3.3.2主要进展.................................................. 57
3.3.3发展趋势.................................................. 60
3.4 大数据分析与挖掘 ............................................. 62
3.4.1 问题与挑战 ............................................... 62
3.4.2主要进展.................................................. 64
3.4.3发展趋势.................................................. 65
............................................. 65 3.5 大数据可视化分析
3.5.1问题与挑战................................................ 65
3.5.2主要进展.................................................. 66
3.5.3发展趋势.................................................. 68
3.6 大数据隐私与安全 ............................................. 70
3.6.1问题与挑战................................................ 70
3.6.2主要进展.................................................. 72
3.6.3发展趋势.................................................. 73
第四章 大数据IT产业链与生态环境 .................................. 74
4.1 大数据国内外相关产业现状 ..................................... 74
4.1.1 大数据产业链全景图 ....................................... 74
4.1.2 国内外发展呈现的四个趋势 ................................. 75
4.2大数据产学研合作相关社区、开源组织、行业协会 ................. 77
4.2.1 大数据相关社区及开源组织 ................................. 77
4.2.2 大数据行业协会 ........................................... 78
4.3数据生产、数据共享与隐私保护等相关政策与法规 ................. 79
4.3.1 大数据政策法规概述 ....................................... 79
4.3.2 数据生产的相关政策与法规 ................................. 79
4.3.3 数据共享的相关政策与法规 ................................. 79
4.3.4 隐私保护的相关政策与法规 ................................. 80
4.4 大数据产业链的创新与瓶颈 ..................................... 81
4.4.1 大数据产业的创新发展 ..................................... 81
4.4.2 大数据产业发展的主要瓶颈 ................................. 82
第五章 大数据人才资源 ............................................. 85
5.1 数据科学学位人才培养 ......................................... 86
5.2 数据科学职业人才培训 ......................................... 88
第六章 大数据发展趋势与建议 ....................................... 90
6.1 大数据科学问题与学科发展趋势 ................................. 90
6.1.1 大数据的科学问题 ......................................... 90
6.1.2 大数据的学科发展趋势 ..................................... 92
6.2 大数据的技术挑战与发展趋势 ................................... 98
6.2.1 大数据的技术挑战 ......................................... 98
6.2.2 大数据的技术发展趋势 .................................... 100
6.3大数据产业的发展重点 ........................................ 103
6.3.1 构建大数据产业生态环境 .................................. 103
6.3.2 大数据产业的发展重点 .................................... 104
6.4 大数据未来发展的思考与建议 .................................. 105
6.4.1 促进大数据基础研究的建议 ................................ 105
6.4.2 发展大数据产业的政策建议 ................................ 107 参考文献 ......................................................... 110
第一章 大数据的发展背景
1.1大数据的起源
信息科技经过60余年的发展,已经渗透到国家治理、经济运行的方方面面。
政治、经济活动中很大一部分的活动都与数据的创造、采集、传输和使用相关,随着网络应用日益深化,大数据应用的影响日益扩大。根据国外一些机构测算,全世界数据总量以每两年翻一番的速度递增。换句话说,最近两年产生的数据总量相当于人类有史以来所有数据量的总和。在这个大背景下,从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变化。
近些年来,我国一些代表性的企业,如华为,开拓美国市场屡屡受阻,已经
传达了明确清晰的信号,即美国政府对自家数据安全的重视程度,已经到了不能让任何外国信息基础设施产品供应商染指的地步。备受世人瞩目的“棱镜门”,更是深刻暴露一些大国在利用信息技术领域的优势,有计划、有步骤的采集各国的“数字DNA”。在大数据时代,国家竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用数据的能力;国家网络空间主权1体现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。没有数据安全,也就没有国家安全。
大数据技术虽然发源于信息科技,但其影响已经远远超出信息行业。数据已
经存在于全球经济中的每一个部门,就如固定资产和人力资本等生产要素一样,如果没有它,许多现代经济活动就不会发生。我们观察到一些新兴的互联网公司,利用新技术,大规模地收集数据,预判客户行为,然后在不同的行业纵横捭阖。他们剑锋所指,现代服务业无不受其锋芒所迫,或随波逐流,或奋起反击。但缺少数据资产、缺少强大的数据分析能力,这类第三产业公司无疑处在被颠覆的边缘。另一方面,也看到传统行业的公司,数十年如一日的坚持积累当时被视作“废料”的数据,现在回头审视这些数字化的资产,居然一跃成为人类的宝库。凭借独一无二的“数据资产”2,公司进入相关行业,易如反掌。我们回头审视产业1
2
网络空间英文译为cyberspace 数据成为资产,参见国金证券大数据系列研究报告《大数据时代的三大发展趋势及投资方向》
的起起伏伏,就会发现决定产业兴衰的根本性因素,已经不是一城一地的争夺,也不仅仅是依靠土地、人力、技术、资本这些传统的生产要素,需要对“数据资产”重新进行优化配置。
大数据时代,有两点非常有利于中国信息产业跨越式发展。第一,大数据技
术以开源为主,迄今为止,尚未形成绝对技术垄断。即便是IBM、甲骨文等行业巨擘,也同样是集成了开源技术和该公司已有产品而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕,但是需要以更加开放的心态、更加开明的思想正确地对待开源社区。第二,中国的人口和经济规模决定了中国的数据资产规模冠于全球。这在客观上为大数据技术的发展,提供了演练场。第二点亟待政府、学术界、产业界、资本市场四方通力合作,在确保国家数据安全的前提下,最大程度地开放数据资产,促进数据关联应用,释放大数据的巨大价值。
大数据的诞生是信息技术发展的必然结果。如交通业,在初期需要修建、疏
通道路,当道路发展到一定的里程,就为汽车产业的发展提供了基础。当汽车普及时,人们关注的焦点就会迁移到汽车运输的“货物”。信息产业的发展亦可以以此类比。宽带网络建设是信息高速公路,物联网、云计算等技术相当于汽车和仓库,而大数据则是大家普遍关注的“货物”。
信息科技进步
如果把信息技术的不断进步,看成世界万物持续数字化的过程,则会理出一
条清晰的主线。信息科技具有三个最核心和基础的能力:信息处理、信息存储和信息传递。几十年来,信息科技的这三个能力的飞速进步,是人类科技史上最为激动人心的故事之一。在这段波澜壮阔的历史中,信息的处理和储存能力获得了成千上万倍的提升。
图1-1: 存储价格的下降3
1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,数据传输
速率为45Mb/s,自此拉开信息传输能力大幅跃升的序幕。有人甚至将光纤传输带宽的增长规律称为超摩尔4定律,认为带宽的增长速度比芯片性能提升的速度还要快。事实上,存储的价格从上个世纪60年代1万美元1M,降到现在的1美分1G的水平,其价差高达亿倍。在几年前在线实时观看高清电影还是难以想象的,而现在却变得习以为常了。网络的接入也从有线连接方式向高速无线连接的方式转变。毫无疑问,网络带宽和大规模存储技术的高速持续发展,为大数据时代提供了廉价的存储和传输服务。因而本书假定存储和带宽不再是制约数据应用的因素。
3
4来源: Plattner and Zeier, “In-Memory Data Management”, 2011, p. 15-16; * Driscoll, “Big Data Now”。 摩尔于1929年出生在美国加州的旧金山,曾获得加州大学伯克利分校的化学学士学位,并且再加州理工大学获得物理化学博士学位。20世纪50年代中期,他和集成电路的发明者罗伯特·诺伊斯一起在威廉·肖克利半导体公司工作。1968年,摩尔和诺伊斯创办了大名鼎鼎的英特尔公司。自1982年起的10年间,微电子技术共有22项重大突破,其中由英特尔公司开发的就有16项之多。摩尔在1974年至1987年间担任英特尔公司的总裁和首席执行官,英特尔公司在微机时代和微软公司一道主宰了整个产业的发展。
图1-2: 网络带宽的增加5
互联网
互联网的出现是科技史上可以比肩“火”与“电”的发明。互联网把每个人
桌面上的计算机连接起来,改变了人们的生活,成为人们获取各类数据的首要渠道。
互联网的内在机理,使其成为更接近消费者、最理解消费者的工具和平台。互联网没有删除键,人们在互联网上的一言一行都被忠实地记录。古代皇帝身边总有一位兢兢业业的史官,随身携带纸笔,记下皇帝的起居作息、金口玉言。互联网就像每个人的“史官”,它从不知疲倦,事不分大小,悉心而精准地记录着一切。事实上,这位“史官”记录的就是大家的数字化生活。
5来源:
Plattner and Zeier, “In-Memory Data Management”, 2011, p. 15-16; * Driscoll, “Big Data Now”
图1-3: 网络生活6
云计算
云计算,再一次改变了数据的存储和访问方式。在云计算出现之前,数据大
多分散存储在每个人的个人电脑、每家企业的服务器中。云计算,尤其是公用云计算,把所有的数据集中存储到“数据中心”,也即所谓的“云端”,用户通过浏6来源:Google,
https://http://www.77cn.com.cn/takeaction/
览器或者专用应用程序来访问。
一些大型的网站,通过提供基于“云”的服务,积累了大量的数据,成为事
实上的“数据中心”。“数据”是这些大型网站最为核心的资产,他们不惜花费高昂的费用,付出巨大的努力,来存储这些数据。谷歌公司甚至购买了单独的水力发电站,为其庞大的数据中心提供充足的电力。根据一些公开资料显示,谷歌在全球分布着大约36个数据中心。
近几年,国内各地兴起了建设云计算基地的风潮,客观上为“大数据”的诞
生准备了必备的储存空间和访问渠道。各大银行、电信运营商、大型互联网公司、政府各个部委等都拥有各自的“数据中心”。绝大多数的银行、电信、互联网公司都已经实现了全国级的数据集中的工作。
云计算是大数据诞生的前提和必要条件。没有云计算,就会缺少数据集中采
集和存储的商业基础,而云计算为大数据提供了存储空间和访问渠道;大数据则是云计算的灵魂和必然的升级方向。
2012年业内所有的云计算大会,无论官方背景还是民间主办,都是把“大
数据”作为一个核心的主题,甚至有时候都分不清楚,这是云计算的会,还是大数据的会。
物联网
物联网是信息技术领域的另一个热词,遍布大街小巷的摄像头是大家可以直
观感受到的一种物联网形态。物联网,究其本质是传感器技术进步的产物。在人们的生活中,传感器几乎无处不在,从监测大气的温度、压强、风力,到监测桥梁、矿井的安全,再到监测飞机、汽车的行驶状态等。大型器件,如一架军用战斗机上的传感器多达数千个;小型器件,如日常使用的智能手机,就包括重力感应器、加速度感应器、距离感应器、光线感应器、陀螺仪、电子罗盘、摄像头等诸多种类的传感器。这些不同类型的传感器,无时无刻不在产生大量的数据,其中的某些数据被持续的收集起来,成为大数据的重要来源之一。
社交网络
社交网络是互联网发展史上的又一个重要的里程碑。它把人类社会真实的人
际关系完美的映射到互联网空间,并借助互联网的特性而大大升华。广义地看,社交网络使得互联网甚至具备某些人类的特质,譬如“情绪”:人们分享各自的
喜怒哀乐,并相互传染和传播。社交网络为大数据带来一类最具活力的数据类型——人们的喜好和偏爱。更重要的是,在社交网络中,如何利用网民的关系链来传播喜好和偏爱,为研究消费者行为打开了一扇方便之门。如果深入地分析社交网络,就会发现,大型的社交网络平台,事实上构成了以“个人”为枢纽的不同的数据的集合。借助“分享”按钮,人们在不同网站上的购物信息、浏览的网页都可以“分享”在社交网络上。就像雪地上的脚印,社交网络把网民在不同网站上留下的“脚印”链接起来,形成完整的行为轨迹和“偏好”链。
图1-4: 反映社交网络Facebook上人们活跃程度的世界地图7
图1-4是Facebook的一个实习生把网站中人们相互联系的数据通过建模、
渲染得到的一幅图片,越是明亮的地方,人们相互交流越是活跃。现在Facebook是世界上最大的社交网站,每月的活跃用户数已突破10亿人。
智能终端普及
古人只能用“大漠孤烟直,长河落日圆”等诗词歌赋,来主观地描述他们的
所见所闻,而现代人则可以掏出手机、照相机、摄像机等终端设备,再现美丽的风景,与亲朋好友分享。在迷路时,性情的古人索性信马由缰不问归路8,而现代人则可以拿出智能手机,使用导航软件找寻目的地。
7
8来源:Facebook,http://www.77cn.com.cn 《晋书·阮籍传》中记载,“时率意独驾,不由径路,车迹所穷,辄恸哭而反”。籍非迷路,刻意为之。正文是夸张的说法。
智能终端不仅仅局限于个人应用,许多行业都已经开始大规模地部署终端产
品。举一个“美丽”的例子,如婚纱摄影行业,以前影楼需要租用大面积的场馆、位置优良租金高昂的门店,携带大型的、笨重的写真集,展示给准新娘们用以挑选照片。而现如今利用iPad,可以做出令人心醉神迷的实景效果,如360度旋转等特效。准新娘只需要一部iPad,就可以全面地看到最终的拍摄效果,并利用其交互特性提高样片选择的精准度。
9KPCB(凯鹏华盈)是美国最大的风险投资基金之一,其合伙人Mary Meeker
在2012年发布的一份趋势报告中指出,在2010年第四季度,智能手机加平板电脑的出货量已经超越台式机和传统笔记本电脑,(参见图1-5),并且预计将在2013年第二季度,智能移动终端全球保有量也将实现超越。(参见图1-610)。
图1-5: 移动设备与传统台式机、笔记本电脑的全球出货量对比图11
KPCB公司(Kleiner Perkins Caufield & Byers)成立于1972年,是美国最大的风险基金,主要是承担各大名校的校产投资业务。KPCB公司人才济济,在风险投资业崭露头角,在其所投资的风险企业中,有康柏公司、太阳微系统公司、莲花公司等这些电脑及软件行业的佼佼者,随着互联网的飞速发展,公司抓住这一百年难觅的商业机遇,将风险投资的重点放在互联网产业,先后投资美国在线公司、奋扬公司(EXICITE)、亚马逊书店、网景公司、谷歌、Intuit等公司。
10计算保有量,预计保有量假定台式机的换机周期是5年,笔记本电脑的换机周期是4年,智能手机2年,平板电脑2.5年。
11来源:
Katy Huberty, Ehud Gelblum, Morgan Stanley Research. Data and Estimates as of 9/12
9
图1-6: 移动设备与传统台式机、笔记本电脑的全球保有量对比图12
智能终端的普及给大数据带来了丰富、鲜活的数据。苹果公司2012年公布
的一组运营数据,反映了智能终端上人们的活跃程度。其中,iMessage 功能目前每秒为用户传递28000条信息,iCloud已经为用户提供了总计1亿多份的文档,GameCenter的账号创建数达到了1.6亿,当前iOS 应用总数突破70万,支持 iPad 的应用则达到了27.5万,AppStore 的应用下载量突破350亿次,通过分成付给应用开发商的分成总额已达65亿美元,iBooks中的图书总数已达150万册,下载量也超过了4亿次。
1.2大数据的概念和内涵
麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。该公司在报告《大
数据:创新、竞争和生产力的下一个前沿领域》中给出的定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。其同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据13。
国际数据公司(IDC)从四个特征定义大数据,即海量的数据规模(Volume)、
快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨12
13来源:Katy Huberty, Ehud Gelblum, Morgan Stanley Research. Data and Estimates as of 9/12 参见麦肯锡,《Big data: The next frontier for innovation, competition, and productivity》,2011年。
大的数据价值(Value)。
亚马逊(全球最大的电子商务公司)大数据科学家John Rauser给出了大数
据的简单的定义:大数据是任何超过了一台计算机处理能力的数据量。(Big data is ‘any amount of data that’s too big to be handled by one computer’.)
维基百科中则只有短短的一句话:“巨量资料(big data),或称大数据,指的
是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。
大数据是一个宽泛的概念,见仁见智,但是上面几个定义都无一例外地突出
了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。《大数据时代的历史机遇》一书的作者认为:大数据是“在多样的或者大量数据中,迅速获取信息的能力14”。前面几个定义都是从大数据本身出发,这个定义更关心大数据的功用,即大数据能帮助人们干什么?在这个定义中,重心是“能力”。一般而言,“大数据”是指难以在可接受的时间内,用传统数据库系统或常规应用软件处理的、巨量而复杂的数据集[1]
“大数据”与钱学森老先生提倡的“大成智慧学”的要义非常接近。钱老将
“大成智慧” 翻译成“Wisdom in Cyberspace”,强调“必集大成,才能得智慧”。有了数据,有了信息,不等于就有智慧,出智慧的关键在“集”。大数据中包括的全部事实、经验、信息都是“集”的对象和内容。采集到的原始数据往往是些“零金碎玉”,没有什么逻辑,不一定能直接用现在掌握的科学技术解释,需要集成融合各个侧面的数据,才能挖掘出前人未知的大价值。每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据的相互关联之中。只有融合、集成各方面的原始数据(带毛的数据),才能反映事物的全貌。开展大数据研究和应用,切忌“瞎子摸象”、“坐井观天”,一定要大协作,大集成。
大数据不仅仅是一种工具,而是一种战略、世界观和文化,要大力推广和树
立“数据文化”。智慧来源于数据而不是主观臆断,要提倡用数据说话,少犯官僚主义、形式主义、主观主义和经验主义的错误。从这种意义上讲,推动“大数据”技术的应用也是贯彻中央精神,破除“四风”的有力抓手。
大数据产业的生产活动涵盖数据的获取、整理(curation)、存储、处理、可
14参见《大数据时代的历史机遇》清华出版社 2013.07.
视化、应用服务和信息共享等,其业务模式包括网络数据与信息服务、企业和政府智能化管理决策、企业流程改造与变革等,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等,几乎渗透到国民经济的所有部门。
目前能产生经济利益的数据主要是网上数据,即“在线数据”,写在纸上的
数据很难被快速挖掘出大的价值。互联网领域是大数据的标杆应用领域。众多互联网服务厂商让上亿用户免费为其打工,其海量的原始数据和用户行为数据来自于用户的信息消费过程,通过网络爬虫和用户点击日志获取等技术手段,信息消费和信息获取、分析已融为一个整体。
虽然有些学者认为关系数据库和事务处理不能算作大数据,但Forrester公司
的调查统计表明(见图1-7):目前大数据实际应用最多的(占被调查企业的72%)是公司的事务处理数据,而视频图像数据(13%)和科学数据(12%)还不是大数据应用的主流。大数据分析可以更全面地了解客户偏好和需求,通过这种深入的了解,各类企业均可以从中受益。因此在发展大数据产业时需要高度重视企业的事务处理的智能化,引导企业从传统的小型机和关系数据库走向新的大数据处理平台。
图1-7: 企业对大数据技术的需求统计
在发展大数据产业过程中,还需要关注大数据对制造业、材料、化工、制
药等传统产业的变革性影响。未来对经济影响较大的可能是“数据材料”、
“数据
化学”、“数据药物”等新产业,需要重视“材料基因组学”、“化学基因组学”、“药物基因组学”等的研究。
国内外软硬件厂商都将大数据处理作为重要的新兴应用负载,研究开发新
产品,大力提升大数据能力。应用软件厂商(如SAS和SAP公司)已推出支持大数据的新产品,甲骨文、IBM、曙光等系统厂商正在推出支持高效大数据处理的一体化服务器。设备和软件厂商必将是发展大数据产业的主要驱动力之一。
1.3大数据的发展历程
麦肯锡于2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿
领域》报告将大数据概念从技术圈引入企业界。国金证券15率先将大数据概念引入中国资本市场,连续推出三篇报告,令资本市场沸腾。巧合的是,美国政府在国金证券大数据研究报告发布不久就推出了《大数据研究发展计划》16,将大数据上升至国家战略层面,形成国家意志。之后,Splunk成为在美国成功上市的首家大数据公司,让“数据人”一时扬眉吐气,深感数据工作的春天到了。
正如哈佛大学量化社会科学学院院长Gary King所说:“这是一种革命,我
们确实正在进行这场革命,庞大的新数据来源所带来的量化转变将在学术界、企业界和政界中迅速蔓延开来,没有哪个领域不会受到影响。”毫无疑问,上述的种种事件无不向世界传递一个讯息:大数据时代已经到来!
麦肯锡的研究报告指出全球数据正在呈爆炸式增长,数据已经渗透到每一个
行业和业务职能领域,并成为重要的生产因素。大数据的使用将成为企业成长和竞争的关键,人们对大数据的运用将支撑新一波的生产力增长和消费者收益浪潮。
麦肯锡的报告深入研究了美国医疗卫生、欧洲公共管理部门、美国零售业、全球制造业和个人地理信息等五大领域,用具体量化的方式分析研究大数据所蕴含的巨大价值。大数据的合理有效利用,为美国医疗卫生行业每年创造价值逾3000亿美元,为欧洲公共管理部门每年创造2500亿欧元(约3500亿美元),为全球个人位置服务的服务商和最终用户分别创造至少1000亿美元的收入和7000亿美元的价值,帮助美国零售业获得60%的净利润增长,帮助制造业在产品开发、组装方面将成本降低50%。
15
16
http://www.77cn.com.cn http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf
通过对上述五大领域的重点分析,麦肯锡提出了五种可以广泛适用的利用
“大数据”的方法:
(1) 创造透明度,使利益相关者更容易及时获取大数据将产生的巨大价值。
(2)启用实验来发现需求,呈现可变性,提高性能。数据驱动的组织在已
有经验成果的基础上做出决定,这种方法的好处已经被证实。
(3)细分人群,采取灵活行动。随着技术的进步,可以接近实时地进行细
分,并通过更精确的服务满足客户需求。
(4)使用自动化算法代替或辅助人类决策,基于大数据的深入分析可以大
幅降低决策风险,提高决策水平。
(5)创新商业、产品和服务,大数据使各类企业拥有了改善和创新现有的
产品和服务的机会,甚至建立全新的商业模式。
此外,麦肯锡在报告中也指出了在挖据大数据潜能时所面临的各种挑战,包
括隐私、安全、人才、技术等。
麦肯锡的报告充分肯定了大数据蕴藏的巨大价值,并试图帮助不同地域、不
同部门的领导者及政策制定者了解如何利用大数据的潜在价值。整篇报告为大数据时代的蓬勃发展拉开了序幕。
表1-1: 大数据发展大事记 时间
2011年5月 大数据事件 里程碑 麦肯锡全球研究报告《Big data: The next frontier 首开先河
for innovation, competition,and productivity》。
2011年5月 EMC World 2011在拉斯维加斯开幕,会议主题为
“云计算适逢大数据”,参会者超过10000人,现
场有超过500场讲座,以及来自上百家领先IT
厂商的上百个动手实验室和展示。EMC公司董事
长兼首席执行官乔图斯先生发表主题演讲为四
天的大会开幕,他着重介绍了云计算和大数据给
IT带来的变革。同期举办Momentum大会(企业
内容管理大会)、数据科学家峰会(Data Scientist
正在阅读:
中国大数据技术与产业发展白皮书201309-02
7-9个月婴儿的辅食05-30
人员测评重点03-12
体恒健养肝片效果怎么样官网是什么多少钱05-20
幼儿园安全问题调查分析开题报告01-19
2012SCCM镇静镇痛指南评分概要05-13
人防通风安装方案及质量技术要求保证06-11
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 大数
- 白皮书
- 中国
- 产业发展
- 技术
- 2013
- 阿克苏市第四中学双语学习每月学习会话内容
- 2017-2022年中国出租车行业市场分析与发展趋势预测报告(目录)
- 外出参观学习心得体会
- 电视新闻栏目策划方案
- 初二物理上册期末试卷及答案
- 疑难、危重、死亡病例讨论记录本格式及记录要求
- 第6讲_组建客户机服务器网络
- 第12章 随机过程及其统计描述12.3 泊松过程及维纳过程
- 个人职业生涯SWOT分析范例
- 所氏锁氏家族家谱字辈排行表
- 历年公考公文改错真题
- 第2章 行政公文
- 【经典版】年产6万吨铅冶炼项目可行性研究报告
- 2015年春中国石油大学(北京)石油工程概论 第一阶段在线作业
- 工会委员分工及职能
- 基辛格论中国读书笔记
- 小学英语时态讲解及练习和be动词用法及练习
- 详细简易频谱分析仪
- 2010年华为赛门铁克解决方案巡展开幕
- 直销基本法2011