DaaS数据即服务及大数据技术发展态势跟踪
更新时间:2024-04-14 16:19:01 阅读量: 综合文库 文档下载
- 桌面即服务DaaS推荐度:
- 相关推荐
大数据技术发展态势跟踪
——关于大数据的几个重要观点和产业技术路线发展
大数据(Big Data),普遍认为是指在特定行业中,超出常规处理能力、实时生成、类型多样化的数据集合体,具有海量(Volume)、快速(Velocity)、多样(Variety)和价值(Value)的4V 特征。
最早提出大数据特征的是2001 年麦塔集团(后被Gartner 公司收购)分析师道格?莱尼(Douglas Laney)发布的《3D 数据管理:控制数据容量、处理速度及数据种类》(3D Data Management: ControllingData Volume, Velocity and Variety),提出了4V 特征中的3V。最早提出词汇“Big Data”的是2011 年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告。之后,经Gartner 技术炒作曲线和2012 年维克托?舍恩伯格《大数据时代:生活、工作与思维的大变革》的宣传推广,大数据概念开始风靡全球。
一、关于大数据的几个重要观点
大数据发展至今,伴随着很多争议。有人称之为“新瓶装旧酒”,也有人认为大数据的机遇被过于夸大,企业就是在这种怀疑和忐忑中抓紧推进大数据应用。客观上看,大数据在研究范式、企业战略层面具有变革的潜力,但不宜过于强调其新颖性,不应同过去的数据学科领域割裂开来;21 世纪以来,大数据技术发生了革命性突破,主要体现在对3V 特性的“适应”和“运用”上,目前受益最大的是云计算产业,对其他产业和社会发展的变革作用尚未落地。
有如下几个重要判断和观点:
1、大数据的核心思想本质是数据挖掘。数据挖掘(Data Mining)借助计算机从海量数据中发现隐含的知识和规律,是一门融合了计算机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模式识别等理论在上世纪90 时代推行知识管理时已有显著进展。从本质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智能(Business
Intelligence)模式创新,都是数据挖掘理论的延伸,表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。比如,因果关系是数理统计中的重要内容,基于完善的数学理论,代表是回归模型;而相关关系是数据挖掘中的重要内容,基于强大的机器运算能力,代表是神经网络、决策树算法,这使得人们不需要了解背后复杂的因果逻辑也可以获得良好的分析和预测结果。从某种程度上说,必须感谢大数据的宣传者,正是这样的热炒才让数据挖掘这样一门小众却极具价值的科学展现在大众眼前,起到了很好的科普作用。
2、突破主要来自技术上的“能力拓展”。表现在对多样(Variety)、海量(Volume)、快速(Velocity)特征的“适应”和“运用”上:一是存储数据从结构化向半结构化、非结构化拓展,如基于Web 异构环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数据的专有挖掘算法的产生和发展。二是数据库从关系型向非关系型、分布式拓展,关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel 表格,缺点在于存储容量小、数据扩展性和多样性差,而新的非关系型、分布式数据库可以弥补上述不足。三是数据处理从静态向实时交互拓展,新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,有效应对多样(Variety)和海量(Volume)带来的复杂度和时效性要求。
3、能力拓展直接促成了价值(Value)的实现。得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。比如,传统BI 分析有一个“集中”步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整
的数据仓库,这个步骤往往成为BI 分析全过程的能力瓶颈;而基于大数据分布式技术的BI 分析无需“集中”,大大提升了敏捷度和智能水平,从而推动机器学习、语义处理等领域发生重大突破,直接促成了Mahout 机器学习算法集、Siri 语音助手等一批商用化产品的问世。
4、变革的潜力主要体现在数据开放战略和数据驱动范式上。在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态、新模式蓬勃发展,在此基础上将推动机构数据开放和公众共享运动的兴起。在研究范式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头,如生物基因与健康等研发密集型产业开始向数据研究科学拓展;许多传统的科学研究如历史、文学等也开始尝试运用数据分析技术。但上述重大变革目前尚未真正实现。大数据现有技术水平的主要受益产业仍然是云计算和各类基于云计算的商业模式,在信息基础设施普及率、社会开放性以及与网络智能交互技术的结合度没有达到一定能级时,大数据的应用是有限的,达不到面向社会的“无所不能”。
5、大数据技术的主要推动者是互联网企业。由于更多地围绕云计算,所以大数据的底层架构和核心技术主要由谷歌、亚马逊、脸谱以及美国Apache 基金会等互联网企业机构掌握。谷歌公司研发了大数据“三核心”——文件系统(GoogleFileSystem )、处理算法(MapReduce)和分布式数据库(BigTable),打造了全球大数据开发的主流框架和范式。雅虎和Apache 基金会基于谷歌的算法思想,开发了Hadoop 开源框架,向广大企业和创业者开放,推动产业生态系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具;而微软、IBM 等传统IT 企业在产业链上更多关注下游应用,开发产品和系统解决方案。
6、大数据的提出有助于进一步明晰云计算的概念。从专有领域的角度看,原来的云计算包括两层概念:一类是海量数据的高效处理,主要是大规模分布式并行运算技术,代表是谷歌公司;另一类是硬件资源的虚拟化分配,更多聚焦虚拟机技术和对象存储出租商业模式,代表是亚马逊公司。这两层概念相互交织,往往让外界分不清楚。大数据概念的提出,可以将前者完全涵盖,侧重微观、技术和前端;云计算这个概念今后可更多地在商业模式层面进行定义,侧重宏观、服务和后端。任何IT 企业的云战略都可以分成两条线:一个是大数据,一个是云计算,分别对应不同的产品。比如微软公司,如果说的是其并行数据仓库与Hadoop 集成的解决方案,那么谈论的是大数据;如果提到的是其Azure 数据库服务租用平台和IaaS、PaaS、SaaS 三类服务模式,那么谈论的是云计算。
7、数据并非越大越有价值。大数据支持者的一个重要论断是:基于全量,大数据分析的准确性将超越传统数理统计,因果关系将为相关关系所取代,而事实并非如此乐观。一方面,传统的数理统计没有过时。其经历四百年的发展,仍然在经济社会各方面发挥着重要作用。比如,抽样是一门古老且成熟的统计方法,如果目标明确、方法科学,其在绝大多数情况下得出结论的正确性,并不逊于全量数据。客观上看,全量的价值更多体现在一些传统数理统计基本假设可能失效之处,如互联网“长尾”现象的出现,导致正态分布、帕累托法则在个别领域不再适用,此时需要依靠全量数据寻求规律。另一方面,全量伴生的“噪音”有时会影响精准度。例如,被誉为大数据杰出案例的“谷歌流感趋势”近期陷入低谷,错误率高达90%以上(108 周中错了100 周),不能预测甲型H1N1 等重大疫情。它的核心逻辑是:搜索“流感”的人数与实际患症的人数之间存在相关性,而事实上,即便去医院看流感的人都有80%~90%实际没有得流感,表面的网络搜索行为与可靠的信息来源还存在较大差距以及“去噪”过程。很多专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作为其补充。
二、大数据技术发展经历了从萌芽到成熟的过程
基于Web of Science 数据库1中1994 年后涉及大数据概念的4495篇文献,采用
Citespace 知识图谱工具,通过热点关键词和高被引文献分析,勾勒出了大数据技术从萌芽到成熟的发展历程(如图1、2)。
1、萌芽期:数据挖掘技术(上世纪90 年代-本世纪初)随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,对于大数据的研究主要集中于“Algorithms”(算法)、“Model”(模型)、“Patterns”(模式)、“Identification”(识别)等热点关键词,高被引文献侧重于数据挖掘和机器学习的基础技术,如1993 年Quinlan JR 发明的C4.5 数据挖掘算法,1995 年VladimirN.Vapnik 撰写的机器学习教材,以及1998 年Eisen MB 等关于聚类分析和全基因组表达模式的研究等。
2、突破期:围绕非结构化数据自由探索(2003-2006 年)非结构化数据的爆发带动大数据技术的快速突破。以 2004 年Facebook 创立为标志,社交网络的流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对。此时的热点关键词较为分散,包括了“Systems”(系统)、“Networks”(网络)、“Evolution”(演化)等,高被引文献也很少,说明学术界、企业界正从多角度对数据处理系统、数据库架构进行重新思考,且尚未形成共识。期间,谷歌公司Jeff Dean 和Sanjay Ghemawat 发表了三篇论文,分别提出
GoogleFileSystem(2003)、MapReduce 算法(2004)和BigTable 数据库(2006),奠定了大数据技术的核心基础。
3、成熟期:形成并行运算与分布式系统(2006-2009 年)Jeff Dean 在BigTable 基础上开发了Spanner 数据库(2009)。此阶段,大数据研究的热点关键词再次趋于集中,聚焦“Performance”(性能)、“CloudComputing”(云计算)、“MapReduce”(大规模数据集并行运算算法)、“Hadoop”(开源分布式系统基础架构)等。在高被引文献方面,有两篇引人注目,分别是2008 年谷歌公司正式发表的MapReduce 论文和2009 年Tom White 发表的Hadoop 论文。
4、未来:大数据技术仍在快速发展(2010 年至今)随着智能手机的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。老“三核心”面临能力瓶颈,而2010 年谷歌为应对这种趋势而开发的Percolator、Dremel 和Pregel 日趋成为新“三核心”。与此同时,非关系型数据库(NoSQL)再次自我革新,开始转向兼具关系型易查询和非关系型高扩展性的新型云数据库(NewSQL),代表如谷歌的Spanner、亚马逊的RDS、微软的SQL Azure 等,大数据的核心技术仍在快速发展。
——全球大数据研究的进展、分布和前沿
二十年来,全球大数据研究经历了一个从起步到活跃的过程。基于大数据相关的4573 篇文献和8571 项专利,对其研究进展、分布和前沿进行分析,可以得出如下结论:1、美国是大数据研究的中心地带,技术创新活跃,国际间合作频繁。2、我国对大数据研究的资助力度较大,学术论文较多,但与国外创新合作较少。3、系统、性能和算法是大数据研究的重点方向和核心基础。4、大数据产业创新不仅聚焦软件技术研发,还在硬件技术上重点布局。
一、大数据研究文献的国别和机构分布
1、美国是大数据研究的中心地带,我国紧随其后。美国是研究者最多的国家,约占总数的34%,中国紧随其后,占23%,美中两国合计占到总数的一半以上。其余的前10 位国家包括:德国、英国、日本、印度、加拿大、法国、澳大利亚和韩国。
2、大数据研究文献发展的“三阶段”特征显著。第一阶段是1994-2001 年,年均文献不超过50 篇,研究文献主要为“美国籍”。第二阶段为2002-2010 年,年均文献超过100
篇,且以年均20%的幅度稳步增长,突出特点是我国文献开始出现,并在2008-2009 年超过了美国。第三阶段为2011-2013 年,研究文献出现爆发式增长,3 年文献共达到2053 篇,占20 年累计总数的44.9%;主要原因是美国文献的再次崛起,3 年内贡献了735 篇,而我国为489 篇。
3、我国政府对大数据研究的资助力度较大。文献数前25 位的研究机构中,美国16 所大学上榜,共发表论文559 篇,占美国文献总数的36.4%。中国则有6 所大学机构上榜,其中中科院发表论文数居世界第一,达到109 篇,之后依次是清华大学、上海交通大学、哈尔滨工业大学、浙江大学和华中科技大学。6 所大学机构共计发表论文244 篇,约占我国大数据文献总数的四分之一。
从资助机构上看,资助5 篇以上的机构一共有36 家,大多为国家基金组织和政府部门。其中,中国国家自然科学基金、美国国家科学基金和国立卫生研究院是三家资助发表文献最多的机构,分别达到122 篇、109 篇和57 篇。而企业更多聚焦专利领域进行布局,仅有谷歌和微软两家公司资助的研究文献超过5 篇。
4、我国大数据研究的质量有待进一步提升。一方面,从合作关系上看,我国的大数据研究与世界联系不多,仅与台湾地区、德国有少量合作,而美国与韩国、澳大利亚、法国、瑞典、瑞士、土耳其等国家保持着密切的合作关系,德国、加拿大、英国之间也有不少合作。另一方面,从文献被引频次来看,研究文献的质量低于美国,美国1537 篇论文平均引用次数达到14.20 次,高引用指数为66,而我国文献的高引用指数仅有20。
二、大数据研究的学科领域分布
1、大数据研究开始渗透进入应用领域。文献涉及的学科领域超过100 个。在排名前15 位的学科领域中(图5),除了数学、物理学等基础学科外,更是出现了微生物学、环境生态学、运筹学与管理科学等应用学科,说明大数据技术已经渗透进入各个基础和应用学科领域。
2、系统、性能和算法是大数据研究的重点方向。从大数据涉及的主要学科领域分布中可以看到,大量文献集中在数据处理的系统、性能和算法上,如数据挖掘、机器学习、主成分分析与分类等方向位于核心层,其次为神经网络、降维运算、数据存储、关联规则、数据集等。
3、核心基础技术文献被大量引用。以谷歌公司的Mapreduce 为例,作为大数据的基础技术,该文献后续被近700 篇论文所引用,切实推动了分布式计算、Hadoop 等热点研究的开展。
三、大数据产业技术创新的重点方向 与学术文献研究不同的是,从企业专利布局角度出发,更有利于分析大数据产业技术创新的重点方向。为此,基于Orbit 专利数据库和VOSviewer 软件,对14 家国际性的IT 企业、互联网企业以及新兴大数据企业自2006 年以来的8571 项专利进行分析:
1、大数据软件技术已趋于体系化。在数据的基本框架、采集传输、存储、处理分析等各个环节上,都有不同于以往抽样、封闭、小规模条件的新技术予以支撑,大数据软件技术体系逐步趋于完整。在此基础上,传统的IT 企业、互联网企业纷纷开发了基于大数据的行业解决方案和商业应用平台,一批新兴大数据企业加快发展并进行商业模式创新,产业创新生态系统所需的各项条件日趋完备。
2、企业在大数据硬件技术上的布局不亚于软件。与学术研究侧重于软件技术不同,企业十分重视相关硬件设备的技术布局。一方面,按照国际专利进行分类,数据处理、存储和相关设备依然是专利较为集中的领域,如大数据专利数量较多的G06F-017、G06F-015、G06F-007、G06F-003、G06F-009、G06F-021 等分类号,均侧重于计算机数据的处理、存储、控制、接口、安全等硬件电路、设备和零部件。另一方面,8571 项专利集聚形成几个较大
的专利群,包括采集显示和传输、处理分析、记录存储、数据管理、共享与协作等,其中规模最大的专利群,依然是与采集、显示和传输相关的外围信息硬件设备。
值得一提的是,14 家国际性企业大数据技术专利的一部分贡献来自于其在华分公司。8571 项专利中,公开国为中国的有1757 项,优先权国在中国的有170 项,说明了我国研究人员在大数据领域研究水平的不断提升。
——产业链格局、竞争策略与商业模式
当前,全球大数据产业正处于蓬勃发展的孕育期和机遇期。核心关键技术也在加快发展和更新换代,各类解决方案提供商加大力度宣传造势,尤其是围绕电信、航空、交通、生物、城市管理等重点领域描绘美好蓝图,力求推动行业应用和商业模式创新,抢占产业增长点;与此同时,小微企业和创业者对大数据热情高涨,期望借此机会实现高速成长的梦想。简言之,由于整个产业开始转向应用创新阶段,高成长的预期让各方都对未来抱以乐观的态度。
一、大数据产业从“技术驱动”转向“应用驱动”
大数据产业的“技术驱动”色彩十分明显,与“应用驱动”阶段尚有一定差距,但这一转变过程正在加速进行。
1、“两纵三横”的产业体系趋于成熟。作为一个独立的产业来看,大数据的产业体系框架表现为“两纵三横”:“两纵”基于技术的基础程度,分为底层技术和应用层技术,前者是共性、基础性技术,如Hadoop 框架、Hbase 数据库、Mahout 算法集等;后者是“二次开发”行为,包括各类个性化方案、产品与服务。而“三横”基于处理的流程顺序,分为基础设施、分析系统和应用工具,也可进一步细化为数据的采集、存储、处理、分析、服务五方面。这一框架体系已经趋于成熟,能够应对绝大多数的产业应用需求。
彭博创投(Bloomberg Ventures)在2012 年对大数据产业进行了调研,也曾将大数据领域的企业和产品分为三类:基础设施、分析和大数据开源技术大数据基础设施大数据分析系统 大数据应用工具分析基础设施操作基础设施基础设施即服务(IaaS)数据库分析解决方案可视化数据即服务(DaaS)商业智能(BI)垂直(产业)应用日志应用广告/媒体应用采集、存储、处理、分析、服务应用,这种划分方法对应了大数据的产业体系框架,基本覆盖了数据处理技术的全链条、各环节。
2、产业发展的方向大都与大数据关联。广义的大数据应用本质上是一种“增值分析”,前景有着近似无限的可能,不受任何行业、资源、地域、用户的约束。从此角度上讲,产业的未来发展方向几乎都能和大数据挂钩。以“十二五”国家战略性新兴产业发展规划为例,很多技术前沿的描述和布局,均与大数据相一致或关联,或是可以通过大数据实现。如新一代信息技术产业布局了物联网、移动终端设备、云计算、海量数据处理软件;节能环保产业布局了高效储能、节能监测和能源计量;生物医药产业布局了生物资源样本库、基因测序、以及基于物联网的远程健康管理服务等。
3、技术的开源特点加速了应用转化过程。大数据技术兴起于互联网时代,而互联网企业大都持有共享开放的价值观,不偏好也不需要依靠垄断有限资源生存,这导致大数据技术早在萌芽阶段就是开源技术,无偿供给全世界的开发者使用;后续包括Hadoop 等底层技术均为开源性质,也没有任何专利门槛。这种免费、去专利化的特点催生了开源项目、开源社区、开放性创新联盟组织的兴起,有效降低了产业技术的壁垒,推动更多的企业和创业者介入,进一步加快了技术应用转化的过程,有助于产业的迅速成长。
二、产业竞争策略逐步成型
大数据产业是典型的知识密集型服务业,除了基础设施环节会带来一定能耗之外,其余环节均为零能耗、高附加值。其在初始资本、法规监管等方面的准入门槛极低,但对人才资
源的要求较高。为此,产业竞争呈现出数量大、水平高的特点,企业竞争策略逐步分化。
1、竞争者虽多,却未形成过度竞争。大数据从业者正在急剧增加,几乎所有的信息技术企业都在此领域布局,同时创业者持续不断地进入此领域。然而,由此带来的并非是过度竞争,而是良性竞争,最终将推动技术的创新和价值的实现。这主要归功于两个原因:一是高创新的属性。大数据技术是ICT 领域中的高附加值环节,以谷歌、亚马逊等为代表的大数据企业,无论是在技术先进性、创新活跃度还是在市场份额上,都在全球处于领先位置。二是高增长的预期。作为企业个体,在产业急速成长的预期之下,基本都选择了追求专业性的策略,依靠产品性能和服务取胜,而摈弃了追求低成本的策略。
2、三类竞争者各具优势。按照技术的变革性与应用水平,主要分化为三类竞争者:一是“互联网颠覆者”,谷歌、亚马逊、Apache基金会开发了全新的基础技术与数据库构架,依靠免费、开源的所谓互联网模式,彻底改变了原有的技术标准与游戏规则,颠覆了ICT 产业。二是“初生牛犊”,在新的规则面前,大公司与创业者处在同一条起跑线上,一些拥有核心人才与市场嗅觉的创业企业,如SPLUNK、Cloudera、Evernote 等企业,在特定工具、专业平台方面迅速抢占先机,填补市场空白,获得快速发展,在产业链中拥有了一席之地。三是“系统集成商”,微软、IBM、HP、Oracle、EMC2、SAP,这些传统IT 巨头拥有强大的资金、研发能力和市场资源。面临大数据的冲击,他们能够敏锐意识到自我革命的紧迫性,并且马上采取应对举措。他们的策略更多是防御性和商业化的,即依靠已有客户资源、成熟的产品线、丰富的行业经验加上商业并购予以应对。
在技术布局方面,大数据的竞争策略分为两类:一是做细分市场专业产品,主要是“互联网颠覆者”和“初生牛犊”,专注于技术领域的耕耘,大量的不同创新产品与应用层出不穷,形成了大数据的技术创新生态。二是整合资源,主要是“系统集成商”,依靠并购“初生牛犊”企业,整合各类资源,将大量专业技术产品组装为面向行业的应用解决方案。如IBM 在7 年内(2006-2013 年)并购了30 多家公司,均指向数据库、存储、商务智能、非结构化分析工具等,IBM还计划2015 年前再支出145 亿美元用于大数据并购。
3、政府是大数据产业的重要一环。与金融、化工、医药等行业相比,大数据并不是一个需要政府强力监管的行业。目前,各国也只有在网络安全与隐私保护方面出台了相关监管法案。与此相反,政府将在促进产业发展上扮演更加重要的角色,主要体现在公共数据的开放上。2009 年,美国总统奥巴马签署了首份总统备忘录《透明和开放的政治》,成立了统一的政府数据开放门户网站:Data.Gov,全面开放政府拥有的公共数据,提供多种应用程序接口,供开发者创建特色应用。这一开放式平台极大地刺激了数据驱动型创新,截至2014年初,该网站开放的数据集已经超过了85000 项,汇集了1200 余个应用程序和软件工具、手机插件,其中超过300 个是由个人或民间组织开发,新的商业模式和企业随之产生,如FlightCaster 公司基于美国交通统计局、联邦航空局交通管制中心警报、美国气象局和航班运行状况信息网站FlightStats 的数据,提供航班晚点预报,比航空公司的正式通知早6 个小时,且准确率达到85%-90%。
三、大数据的商业模式创新
数据驱动型的商业模式有如雨后春笋,在全球加快涌现。为对应产业体系框架,进一步明确价值流向,本文按照数据的获取、管理、分析、应用环节的区分方式,将大数据的商业模式分为数据托管和交易平台、关系挖掘和沉淀价值利用、数据社交和跨界连接三种类型。
1、数据托管和交易平台模式
该模式应用已有数十年之久,是发展最为成熟、最为普遍的大数据商业模式,本质是发挥规模效应,降低单个企业在数据信息存储和寻找上的投入成本。主要业务形态有空间出租托管、数据商店、数据市场等,典型的代表企业为亚马逊、EMC2、DropBox。近年来,该模式引入“云”的概念,从简单的数据存储,逐步扩展到数据聚合平台,最终形成云服务;而
以独特数据资源进行的整合朝着纵向产业链上下游整合和横向多种产业整合两个方向发展,促使了一站式数据商店和数据交易平台的出现。如亚马逊、微软等企业均建立了可以交易应用程序和高级数据集的数据商店,目前已有数万亿个数据点、数千个订阅、数百个应用程序。
2、关系挖掘和沉淀价值利用模式
关系挖掘是媒体热炒的主流大数据商业模式,也是数据科学的主要应用模式。核心是通过数据发现隐藏的相关性,最终用于指导商业、精准化服务与辅助决策。该模式的实现需要一些先决条件,主要是面向数据的处理分析环节:一是目标领域的完全量化,如互联网广告领域,从广告点击到用户购买行为,均有完整详实的数据记录;二是数据处理能力的大幅提升,要能够处理非关系型数据,并在海量条件下保持实时快速的性能。该模式的难点在于需要颠覆常规的用户思维和需求逻辑,典型类型是沉淀价值的利用,即将一些通常无意义的数据甚至是垃圾数据进行利用,最终得出有价值的结论。比如,谷歌公司利用了数十亿用户搜索时的错误拼写记录,用以提升其拼写检查器的智能性。就目前而言,基于关系挖掘的大数据模式尚未成熟,但这种模式获得了社会各界的较高期望,认为其将有助于驱动产业转型和发展新兴产业,如推动生物医药等研发密集型产业、企业咨询等知识密集型产业向数据密集型产业转型,推动零售、交通等传统服务业向现代服务业转型,推动传统制造业向智能制造业转型等。
3、数据社交和跨界连接模式 与前两种模式不同,该模式直接面向每一个社会个体,本质上是充分挖掘物理世界的个体资源,将其变成虚拟世界的一个节点,与其他的节点进行连接、交互和交易,从而大大降低各类商业化业务的推广成本,并形成新兴业态。该模式正在走向成熟,最典型的代表就是O2O(线上-线下连接)。比如,微信不光是聊天工具,更成为了连接线上线下、开展移动支付的重要入口;打车软件有效降低了供需双方的信息不对称,提升了出租车市场的智能化程度;可穿戴设备将人体的讯息进一步量化,并提供决策建议;苹果Passbook 软件为用户提供一个智能的电子卡包,整合信用卡、护照、登机牌、优惠券等各类卡牌的信息功能。该模式的推行也有几个必要条件,主要是针对数据的采集传输环节:移动化,需要带有位置服务、能够发射无线信号的智能终端;稳定连接,需要高速、泛在的外部网络环境;在线支付,依靠用户最终的支付行为实现盈利;持续感知能力,需要先进的传感器技术、低功耗芯片技术以及电池技术作为保障。
全面理解数据即服务(DaaS)
2013年03月29日 作者:LiquidHub合伙人
摘要:本文分析了数据即服务(DaaS)的概念,数据即服务通过资源的集中化管理,为提升IT效率以及系统性能指明了方向。 标签 DaaS数据治理数据即服务
资源利用率不足,数据蔓延到整个企业IT系统导致管理的复杂程度不断加深,这是每一位CIO[注]都要面对的难题。现实中的困境也促进了技术发展,数据即服务
(Data-as-a-Service,DaaS)通过资源的集中化管理,为提升IT效率以及系统性能指明了方向。因此DaaS在过去的几年中得到了许多CIO的青睐,它包含的主要技术有数据虚拟化、数据集成、SOA、BPM以及PaaS[注]等。
如何在正确的时间将正确的数据传输到正确的位置?如何将困在应用系统中的数据进行虚拟化?如何在数据复杂度以及数据量不断增长的情况下,依然能够支撑多变的业务需求?这些问题都在加速数据即服务的普及。
企业DaaS策略以及基础架构成为CIO和业务部门最为关注的话题之一,这体现在: ?企业数据仓库(EDW)越来越倾向于DaaS策略 ?结构化与非结构化数据增长促使了DaaS的发展
?应用孤岛中的数据越来越集中化管理,DaaS基础架构就变得更加重要 ?要做企业级的数据分析就必须先推行DaaS策略
在早期市场,DaaS主要关注的行业包括金融服务、电信以及公共部门。而在过去的24个月当中,我们看到如医疗、保险、零售、制造、电子商务以及媒体娱乐等行业也涌现出不少DaaS应用案例。
数据即服务用例
数据即服务的概念源自于交易、产品以及客户数据能够按需提供给用户,而不必去考虑地理位置或者不同的组织部门。此外,PaaS(平台即服务[注])和SOA的出现使得数据所处的实际平台也变得无关紧要。
数据即服务拥有非常多的用例:
1.提供单一版本的事实(Single version of truth) 2.支持实时商务智能(BI) 3.交易处理的高性能扩展 4.大数据[注]分析
5.跨多个领域的联合视图 6.增强安全性与可访问性
7.云数据、合作伙伴数据以及社交媒体数据的整合 8.移动应用信息的交付 9.企业范围内的搜索
什么是数据即服务?
数据即服务是指与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。DaaS解决方案能够提供以下的优势:
?敏捷性。通过数据访问的整合,客户能够更加快速地对其进行移动,而无需再去考虑底层数据的来源。如果客户需要稍微不同的数据结构或者调用特定位置的数据,DaaS通过最小程度的变更能够非常快速满足需求。
?成本效益。服务提供者找数据专家来建好底层架构,表现层可以外包给别人(报表和仪表盘用户界面等),同时使得任何变更需求都能更灵活的满足。
?数据质量。通过服务来控制数据的访问,这对数据质量改进非常有帮助,因为更新点只有一个。当服务彻底测试之后,如果下一次部署不发生变化,那么他们只需要进行回归测试就好了。
?效率、高可用和弹性。这些优势来自于虚拟化,物理服务器资源共享将提升效率(+本
站微信networkworldweixin),跨多个物理服务器的集群可以提高可用性,动态调整和实时迁移集群节点到不同的物理服务器能够增强弹性。
数据即服务元素
客户需求构建一个DaaS平台,其中所涉及的元素主要包括:
1.数据采集(Data acquisition):来自于任何数据源,如数据仓库、电子邮件、门户、第三方数据源等。
2.数据治理与标准化:手动或者自动整理数据标准。
3.数据聚合:这个有很强的服务与技术驱动的质量控制机制,不是简单地写100个ETL程序。
4.数据服务:通过web服务、抽取和报表等,让终端用户能够更容易地消费数据。
总结
相关领域知识,应用知识,人员与技能,流程和技术平台是DaaS策略的关键需求。DaaS的精髓在于使数据管理更为集中化,让更多的用户无需去注意底层数据的问题,而将注意力完全放在如何使用这些数据。
转自网界网:
http://software.cnw.com.cn/software-soa-saas/htm2013/20130329_266729.shtml
数据即服务(Data as a Service; DaaS)
什么是数据即服务?
数据即服务是指与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。
DaaS是SaaS的孪生兄弟,作为“as a service”家族成员之一,它将数据作为一种商品提供给任何有需求的组织或个人。SOA(service oriented architecture,面向服务的体系架构)是一种业务驱动的、粗粒度、松耦合的服务架构,支持对业务进行整合,使其成为一种相互联系、可重用的业务任务或服务,是实现DaaS最有效的方法。基于SOA的DaaS体系架构如图1所示。基础异构数据资源经过数据整合后生成符合公共语言模式的视图,最后利用Web service技术将视图封装成具有公共接口的服务供用户调用,从而实现数据资源的按需获取。[1]
数据即服务的优势
DaaS解决方案能够提供以下的优势:
敏捷性。通过数据访问的整合,客户能够更加快速地对其进行移动,而无需再去考虑底层数据的来源。如果客户需要稍微不同的数据结构或者调用特定位置的数据,DaaS通过最小程度的变更能够非常快速满足需求。
成本效益。服务提供者找数据专家来建好底层架构,表现层可以外包给别人(报表和仪表盘用户界面等),同时使得任何变更需求都能更灵活的满足。
数据质量。通过服务来控制数据的访问,这对数据质量改进非常有帮助,因为更新点只有一个。当服务彻底测试之后,如果下一次部署不发生变化,那么他们只需要进行回归测试就好了。
效率、高可用和弹性。这些优势来自于虚拟化,物理服务器资源共享将提升效率,跨多个物理服务器的集群可以提高可用性,动态调整和实时迁移集群节点到不同的物理服务器能够增强弹性。
数据即服务的元素
客户需求构建一个DaaS平台,其中所涉及的元素主要包括:
数据采集(Data acquisition):来自于任何数据源,如数据仓库、电子邮件、门户、第三方数据源等。
数据治理与标准化:手动或者自动整理数据标准。
数据聚合:这个有很强的服务与技术驱动的质量控制机制,不是简单地写100个ETL
程序。
数据服务:通过web服务、抽取和报表等,让终端用户能够更容易地消费数据。
数据即服务的运营模式 随着云计算的发展,现在已经出现了许多云平台以及分布式系统。云计算的模式是业务模式,本质是数据处理技术。数据逐渐成为了一种宝贵的资产,正如一句话所说:谁拥有了大数据,谁就拥有了未来。云为数据资产提供存储、访问和计算。盘活资产,使其为国家治理、企业决策、个人生活服务,就是一种数据即服务的思想。
现在数据的来源各种各样,比如互联网企业:SNS、微博、视频网站、电子商务网站;物联网、移动设备、终端中的商品、个人位置、传感器采集的数据;联通、移动、电信等通信和互联网运营商;天文望远镜拍摄的图像、视频数据、气象学里的卫星云图数据等。 这些数据的拥有者,就可以通过大数据相关技术,如分析技术、存储技术、计算技术等发掘数据中的价值,然后提供服务。
乔布斯时代的苹果公司开创了一种全新的模式:Appstore + iphone/ipad,这种模式改变了人们的生活方式。所以,我认为数据即服务,应该也会像Saas、Paas、Iaas一样具有一种运营模式,进而改变人们的生活。
随着云平台的出现将来一定会出现另一种模式:云平台+大数据=数据服务。在云平台上存储着大量的数据,即一种宝贵的资产,经过挖掘会产生有价值的发现,再进行定制开发,便可以提供针对用户的数据服务。为国家治理、企业决策、个人生活提供服务。 如果数据在安全的基础上达到有效的共享便会产生更大的价值。例如把一个国家的各产业的数据共享互通,然后进行知识发现,为产业结构调整提供决策支持。
数据即服务的应用
数据即服务的概念源自于交易、产品以及客户数据能够按需提供给用户,而不必去考虑地理位置或者不同的组织部门。此外,PaaS(平台即服务)和SOA的出现使得数据所处的实际平台也变得无关紧要。
数据即服务拥有非常多的用例:提供单一版本的事实(Single version of truth)支持实时商务智能(BI)交易处理的高性能扩展大数据分析跨多个领域的联合视图增强安全性与可访问性云数据、合作伙伴数据以及社交媒体数据的整合移动应用信息的交付企业范围内的搜索 相关领域知识,应用知识,人员与技能,流程和技术平台是DaaS策略的关键需求。DaaS的精髓在于使数据管理更为集中化,让更多的用户无需去注意底层数据的问题,而将注意力完全放在如何使用这些数据。
参考文献
1.↑张水平,程超,王蓉,张凤琴,陈爱网.一种应用于DaaS的物化视图候选集生成算法[J].计算机应用研究, 2012,(11).
数据即服务(DaaS)
1为什么出现DaaS
1.1大数据时代来临
未来的十年将是一个“大数据”引领的智慧科技的时代。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度将比历史上的任何时期都要多,都要快。“大数据”时代的脚步悄然而至。
现在,数据来源多种多样,无论何时,无论任何地方都在产生新的数据。据统计,全世界可用的数据量已经由2005年的150EB增长到2010年的1200EB。预计未来几年,数据总量每年将增加40%,这意味着从2007年到2020年,数据的存储量要增长44倍。[1]
对于大数据,IBM总结了它的四个特性:大量化(Volume)、多样化(Variety)、快速化(Velocity)和价值(Value)。通过大数据的四个特性我们可以看出在快速化、大量化和多样化的大数据中是存在着价值的,这些价值是可以上升到服务的,同时数据也是一种资产。大数据已经成为一个时代的标志和潮流,而如何利用它也将是一个挑战和机遇。
1.2 IaaS、PaaS、SaaS等模式的出现
随着互联网技术的发展和应用软件的成熟,在21世纪开始兴起的一种完全创新的软件应用模式——SaaS。同时由于云计算概念的出现,也出现了PaaS和IaaS。 SaaS:它是一种通过Internet提供软件的模式,厂商将应用软件统一部署在自己的服务器上,客户可以根据自己实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得厂商提供的服务。用户不用再购买软件,而改用向提供商租用基于Web的软件,来管理企业经营活动,且无需对软件进行维护,服务提供商会全权管理和维护软件。
PaaS:把软件研发的平台作为一种服务提供的商业模式,以SaaS的模式提交给用户。 IaaS : 消费者通过Internet 可以从完善的计算机基础设施获得服务。 通过上面三种模式可以看出,提供服务是一种适合时代潮流的运营方式,也是未来运营的一种趋势。因为这样可以减少用户的投资,用户可以按需订购,适用面广泛而且前景美好。 同时,可以看出在上面三种模式的基础上,未来很多软件、应用都会基于上述的几种模式,同时会产生大量数据,而这些数据会比较集中、易于操作和共享。为什么说会比较集中、易于操作和共享,是因为大部分应用运行在专业的平台上,所以数据会集中在云平台等基础设施中。同时因为平台提供商具有成熟的技术,所以对数据的存储、计算等是比较成熟的,所以操作起大数据来比较容易。对具有这些特点的数据进行整合、处理、挖掘等操作后就可以发掘有价值的东西。再通过平台可以提供服务给用户。所以,从硬件和软件的基础上看, DaaS是可以实现的。
1.3大数据潜藏价值
大数据的有效利用可以创造巨大的潜在价值。许多行业和承担业务职能的组织可以利用大数据提高人力、物理资源的分配和协调能力,减少浪费,增加透明度,并促进新想法和新见解
的产生。
例如,现阶段我国比较注重产业结构的调整。如果政府拥有各个产业的数据,并通过数据挖掘等技术进行知识发现,就可以为决策者提供科学合理的借鉴,作为结构调整的决策支持。 两年前,CIA需要大约63天来分析收集的数据,现在,只需要27分钟就可以了。CIA认为,近年来,社会化媒体,移动技术和云计算应用给社会带来了深刻的变化。一个例子就是前一段的“阿拉伯之春”,如果没有这些技术的话,就不可能成功。此外,廉价的,随时可接入网络的设备也很大程度地改变了人们的商业行为。这种数据提供服务的能力对于CIA这样的情报机构非常有用。CIA可以利用大数据技术从信息的汪洋大海中发现恐怖分子的行踪。因此,大数据的充分利用就变得格外重要了。 总体来说,很多行业需要提供关于数据的服务。
2 DaaS是什么
2.1 数据即服务的含义
DaaS字面意思为:数据即服务。我认为DaaS就是把大数据中潜在的价值发掘出来,根据用户的需求提供服务。
数据即服务应该包含多层含义。首先,可以为用户提供公共数据的访问服务,用户可以随时访问任何内容的数据。例如,一个用户想查看过去十年的天气情况,数据服务提供者就可以提供给用户过去十年的天气情况。对于这种数据服务,可以提供按不同国家、地区、季度、月份给出的数据。所以,公共数据的访问是灵活性的、多角度的、全方位的。
其次,可以为用户提供数据中潜在的价值信息的服务。例如,一个具有全球连锁店的汽车销售企业,可以向数据服务提供商买这样的服务:全球不同国家、地区人们购买汽车的情况,其中可包括哪里的人喜欢买什么品牌的汽车,汽车风格又和人的职业之间的关系等。获取这样的数据服务后,汽车销售企业就可以根据具体情况安排销售计划。
2.2 数据即服务的运营模式 随着云计算的发展,现在已经出现了许多云平台以及分布式系统。云计算的模式是业务模式,本质是数据处理技术。数据逐渐成为了一种宝贵的资产,正如一句话所说:谁拥有了大数据,谁就拥有了未来。云为数据资产提供存储、访问和计算。盘活资产,使其为国家治理、企业决策、个人生活服务,就是一种数据即服务的思想。
现在数据的来源各种各样,比如互联网企业:SNS、微博、视频网站、电子商务网站;物联网、移动设备、终端中的商品、个人位置、传感器采集的数据;联通、移动、电信等通信和互联网运营商;天文望远镜拍摄的图像、视频数据、气象学里的卫星云图数据等。
这些数据的拥有者,就可以通过大数据相关技术,如分析技术、存储技术、计算技术等发掘数据中的价值,然后提供服务。
乔布斯时代的苹果公司开创了一种全新的模式:Appstore + iphone/ipad,这种模式改变了人们的生活方式。所以,我认为数据即服务,应该也会像Saas、Paas、Iaas一样具有一种运营模式,进而改变人们的生活。
随着云平台的出现将来一定会出现另一种模式:云平台+大数据=数据服务。在云平台上存储着大量的数据,即一种宝贵的资产,经过挖掘会产生有价值的发现,再进行定制开发,便可以提供针对用户的数据服务。为国家治理、企业决策、个人生活提供服务。 如果数据在安全的基础上达到有效的共享便会产生更大的价值。例如把一个国家的各产业的数据共享互通,然后进行知识发现,为产业结构调整提供决策支持。
3国内外现状
2009年,美国政府通过启动Data.gov网站方式进一步开放数据大门,这个网站向公众提供各种各样的政府数据。
2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易型。
2011年5月,麦肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产的下一个新领域》,大数据开始备受关注。
2011年12月8日工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出,其中包括海量数据存储、数据挖掘、图像视频智能分析。
2012年1月,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称,世界已经成为一种新的经济资产类别,就像货币或黄金一样。 2012 年3 月29日美国总统办事机构(EOP)公布了《大数据的研究和发展计划》,强调了联邦政府五大部门在大数据研发上的投资承诺,描述了联邦政府十二个关键部门开展大数据研发应用的行动计划,展示了大数据研发应用将从以往的商业行为上升到美国国家战略部署的总体蓝图。
从以上信息可以看出,国家层面已经开始重视大数据及数据的访问和潜在价值的挖掘,想通过数据资产获取想要的服务,例如知识发现和决策支持。
EMC在2009年7月,收购了数据复制解决方案提供商Data Domain 2010年10月,IBM收购网络分析软件提供商Coremetrics;2007年,收购商务智能上ILOG;2010年,提出智能地球等。
IBM提出的智慧的地球核心思想就是:捕获大数据+数据互通共享+挖掘价值=智慧的地球,就是数据即服务的现实体现。 有人说云计算由美国兴起,最终让亚马逊和谷歌抢占了先机,成为了世界范围内云计算领域的巨头。我们日常在使用的Google Search,Google Earth,Goolge Map,Google Gmail,Google Doc 等等业务都是Google基于自己云计算平台来提供的,而谷歌基于它的云平聚集着海量数据,他们正在寻求通过数据提供服务,据国外媒体报道,2011年6月底,谷歌推出了“数据解放”服务Google Takeout,可以帮助用户快速地从谷歌Buzz、Picasa及谷歌个人页面等服务中导出文件夹﹑照片等数据。昨日,谷歌宣布Google Takeout开始支持导出Google Voice数据。
国内在这方面走在比较靠前的应属百度和阿里巴巴。2012年8月19日,百度云计算(阳泉)中心奠基开工,该中心建设周期为四年,一期总建筑面积达12万平米,在数据存储规模、计算能力和环保节能三方面都处于亚洲一流水平。建成后的百度云计算(阳泉)中心数据存储量超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量;同时由于使用了百度自主研发的的高性能、低功耗服务器,数据中心CPU总量高达70万颗、CPU内核总数超过300万个;此外,数据中心采用多项适用中国环境及法规的高科技技术来提升整体数据中心的能源效率,可实现节能约43%,在绿色环保方面达到亚洲一流水准。百度技术副总裁王劲应邀出席2012年亚洲移动通信博览会,并发表了题为“掘金大数据”的主题演讲。王劲认为,大数据拥有巨大价值:“一方面,开发者可以通过挖掘、分析大数据,发现规律,预测未来;另一方面,开发者可以通过共享网络中的各种数据,实现产品的快速验证和迭代。”百度通过十多年在搜索方面的积累,云平台已具备四大能力:大容量数据存储能力、高并发处理能力、统计分析能力、智能推荐与运营,这些能力将帮助开发者更好地实现大数据价值。王劲强调:大数据是未来的行业发展趋势,其发展势头已难以抵挡,开发者应抓住大数据机遇,利用大数据开发出更智能、更个性化的新一代应用,并最终实现应用经济的转型升级。
正在阅读:
托福经典加试 总结05-21
中国文学史重点归纳(袁行霈主编)高等教育出版社2003版(精)02-01
经典译文之二次世界大战后的美国文学05-31
建设法规复习题 - 图文01-28
1、皖江城带承接产业转移示范区 - 图文12-24
入党申请书(大学生正式版)04-22
西部大开发有感(600字)作文06-02
美丽的深圳作文(精选8篇)04-01
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 数据
- 态势
- 跟踪
- 发展
- 服务
- 技术
- DaaS
- 高中化学探究试题汇编100题及答案(人教版) - 图文
- 部编版人教版九年级语文上册九上语文上册第二单元检测卷(含答案
- 全员德育全面育人,满意学校满园芳菲
- 中共17大常委简介
- 六一儿童节校长代表学校讲话稿
- 跨越架搭设专项施工方案 - 图文
- Oracle数据库安全解决方案及技术综述
- 关于增强人大监督工作实效的调查与思考
- 物理竞赛中简谐运动周期的四种求法
- 旅游规划甲级资质单位
- 教你如何开飞机 波音系 - 图文
- 我国上市公司现金股利分配影响因素的计量分析
- 2018最新LED户外显示屏广告位租赁合同
- 薄板坯连铸机低碳钢塞棒上涨原因探讨(炼钢生产技术会议)
- 新员工入职一周访谈记录提纲
- 浙江省杭州市2016年中考语文模拟试卷(含答案)
- 我国城市交通拥堵问题及治理对策
- 624通讯规约
- 第二章 学前儿童心理卫生与辅导
- 工程部管理运转手册