大数据的研究方法及可能应用—王磊
更新时间:2023-11-01 12:11:01 阅读量: 综合文库 文档下载
- 大数据研究方法有哪些推荐度:
- 相关推荐
大数据的研究方法及可能应用
王磊
【摘要】: 如今,“大数据”已经成为了一个十分热门的词汇,新闻媒体对其
进行长篇累牍的报道,与之相关的学术文章数量激增,大数据图书也受到了极力的追捧。其实,随着以云计算、移动互联、智能化为特征的信息社会的深入发展,人类储存的数据总量在不断增大,数据增长的速度也在持续的加快中。维克托?迈尔?舍恩伯格也曾说过:“世界的本质是数据,大数据将开启一次重大的时代转型。”社会生活的方方面面和我们认识世界的方式都受到了大数据带来的冲击,但是,对于大数据的认知和应用还有许多值得我们探索的地方。
【关键词】:大数据、数据挖掘、贝叶斯分类、图模型、协同推荐、客户价值、
社会网络、文本挖掘
一、关于大数据
1、数据的海洋
20世纪90年代后期,以信息技术、计算机技术、网络技术等为代表的高新技术快速发展,以此为标志,人类社会正式迈入数字时代。现在,伴随着各种各样的智能设备和轻巧灵便的可穿戴计算设备的普及,我们的行为、地理位置、收入与支出、身体生理状况等衣食住行的方方面面都成为了可以被记录和分析的数据。数据量也就由此在不断增大,而且,数据的种类和形式也在持续的更新。可以说,我们的生活已经被日益增长的数据所充斥。
事实上,各行各业都先后受到了数据增长带来的冲击。在天文学领域,2000年美国的斯隆数字巡天(Sloan Digital Sky Survey)项目启动,位于美国新墨西哥州的大型天文望远镜在短短几周内收集到的数据已经比天文学历史上总共收集到的数据还要多。到了2010年,天文望远镜收
集到的数据总量已经高达1.4×2^42字节。在生物学领域,2003年人类第一次破译人体基因密码,全世界的优秀科学家们辛苦工作了十年才完成了30亿对碱基对的排序。而到了现在,世界范围内的基因仪每15分钟就可以完成相同的工作。在金融领域,美国股市每天的成交量高达70亿股,更令人惊讶的是,其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。在互联网领域,Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢(Like)”按钮或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量的数据线索。[1] 总之,在各个领域都出现了爆发式增长的数据。这种增长的速度超过了我们创造任何一种机器的速度,甚至超过了我们的想象。
那么,我们周围究竟有多少数据呢?这些数据增长的速度又有多快呢?根据南加利福尼亚大学的统计学家马丁·希尔伯特(Martin Hilbert)
[2]的估算,在2007年人类大约存储了超过300艾字节(EB)的数据。 在
这里,1艾字节(EB)等于2^60字节(B)。这是个什么概念呢?一部完整的电影总可以被压缩为1个吉字节(GB)的大小,而1个艾字节(EB)相当于10亿吉字节(GB),是一个非常巨大的单位。这就是说,2007年人类储存的数据总量超过了3000亿部电影的数据量。如果我们一天看一部这样的电影,需要近10亿年的时间才能看完!这还不是最为庞大的数字,2010年全球数据总量约为1.8泽字节(ZB),预计2020年全球数据总量将达到40泽字节(ZB)的规模。[3] 1个泽字节(ZB)是1024艾字节(EB),是比艾字节(EB)更为巨大的单位。由此可见,人类现在创造的数据总量是相当庞大的。不仅如此,人类存储数据的信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。[4] 我们真的是被数据的海洋淹没了。
2、大数据的概念及特征
如此巨大和快速增长的数据量催生了大数据(Big Data)概念的产生。
大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。[5] 从这个概念上看,大数据必然不能通过单台计算机进行处理,也不能使用传统的方法进行分析,必须依托于云计算这一先进的技术。同时,大数据具有4个基本特征。第一,数据体量巨大。前文也已提及,现在数据总量已经达到EB级别,甚至达到了ZB级别。第二,数据类型繁多,来源广泛。各种各样的网络文章、音频资料、视频资料、图片资料、地理位置信息等等都是数据的不同类型与来源。第三,价值密度低,商业价值高。体量如此巨大的数据不可能全部都是有用的信息,而这极少量的信息蕴含的价值往往是巨大的。以视频资料为例,公安机关在侦破刑事案件时通常需要调取案发现场的监控视频。而在连续不间断的监控过程中,有用的数据可能仅仅只有一两秒,而有时恰恰是这一两秒的数据就能帮助公安机关发现破案的蛛丝马迹。第四,增长速度快。正如前文所说,现如今数据增长的速度远远超过了世界经济增长的速度,而且这一速度还在不停地加快中。这就是所谓的大数据4V特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。由此可见,大数据的核心问题是如何在种类繁多、体量巨大的数据中快速获取有价值的信息。[6]
3、大数据的意义
1)、公共卫生变革
2009年,甲型H1N1流感病毒爆发,牵动了全世界人民的心。与以往流感爆发的疫情不同,在这次疫情中,谷歌公司发布的数据代替习惯性滞后的官方数据成为了一个更有效、更及时的指示标,公共卫生机构的官员从谷歌公司获得了非常有价值的数据信息。实际上,谷歌公司获取疫情数据的方法是建立在大数据的基础之上的。
在如今的互联网时代,很多人在身体不适时,总会首先在网络上搜索与之相关的词条再决定是否去看医生。例如,如果我们出现咳嗽和发热的症状,或许我们会搜索“哪些是治疗咳嗽和发热的药物”这种词条。于是,这种特殊的检索词条就会流露出流感侵袭的信息。而作为全球最
大的搜索引擎公司,谷歌公司每天都会收到超过30亿条的搜索指令,而且,谷歌公司保存了多年来的全部搜索记录。以此为基础,谷歌公司把疫情蔓延时5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,如此这般分析人们的搜索记录就可判断这些人是否感染了流感病毒。
于是,谷歌公司通过观察人们在网络上的搜索记录成功预测了流感病毒的传播,而且不仅仅是美国范围内的传播,可以精确到特定的地区和州。不仅如此,谷歌公司的判断十分及时,不会像美国疾控中心那样在流感爆发一两周之后才可以做出判断。
谷歌公司的这种方法以前是一直被忽略的,也是一种前所未有的方式,这就是“通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见”。[7] 拥有如此先进的统计技术和庞大的数据储备,我们有理由相信下一次流感来袭的时候,世界将会拥有一种更好的预测工具来预防流感的传播。 2)、商业变革
大数据不仅改变了公共卫生领域,商业领域也因为大数据发生了深刻的变化。
以购买飞机篇为例,美国计算机专家奥伦·埃奇奥尼(Oren Etzioni)专门开发了一个系统,用来预测当前的机票价格在未来的一段时间内是会上升还是下降。也就是说,这个系统需要分析所有特定航线机票的销售价格并确定机票价格与提前购买天数的关系。如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。
埃奇奥尼的预测系统是十分成功的,帮助许多乘客节省了一笔不小的开支。当然,这个预测系统也是在大数据的基础上建立的,所以不可避免的是系统的运转需要海量数据的支持。埃奇奥尼找到了一个商业机会预订机票价格的数据库,而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而
得出的。
基于这个机票价格预测系统,埃奇奥尼创立了一家大数据科技创业公司,名为Farecast。到目前为止,Farecast公司已经拥有了多达2000亿条飞行数据记录,预测的准确度高达75%,而且使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。[8] Farecast公司是大数据公司的一个缩影,也代表了当今世界发展的趋势。计算机的处理能力和存储能力的大幅提升、数据分析能力的突破为大数据公司的出现奠定了基础。 3)、思维变革
在大数据诞生以前,人们通常认为数据是静态的,而且一旦完成了收集数据的目的之后,数据就完全没有用处了。而到了现在,大数据的出现改变了人们的认知,颠覆了人们利用数据的理念。数据已经成为了“一种商业资本,一项重要的经济投入,可以创造新的经济利益”。而且爆炸式增长的数据由量变引发了质变,大数据成为了“人们获得新的认知、创造新的价值的源泉”;成为了“改变市场,改进组织机构,改善政府与公民关系的方法”。大数据时代已经来临,大数据对我们的生活,对整个世界都提出了挑战,而这仅仅只是一个开始。面对海量的数据,我们不必关心数据间的因果关系,而应该更加注重相关关系。也就是说,我们只需要知道“是什么”,而不需要知道“为什么”。这是一个极为重大的改变,在不久的将来,或许我们的认知方式和理解世界的基础都将因为大数据而受到不同程度的冲击。
二、大数据的研究与分析方法
1、数据挖掘
1)、数据挖掘的内涵与基本特征
1995年,法耶兹(Fayyad)在知识发现会议上第一次提出了数据挖掘(Data Mining)的概念,法耶兹认为数据挖掘是“一个自动或半自动化的从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模式的复杂过程”。
法耶兹的定义突出了数据挖掘的工程特征,阐释了数据挖掘是一种用于在海量数据中发现其中存在的有价值的数据模式的分析机制。其实,在技术的层面上,数据挖掘是网络时代必然的技术热点。在电子商务和互联网商业中,数据挖掘有着极为重大的应用价值。
数据挖掘就是解决各种实际问题的数据分析过程,而在通过大量数据解决实际问题的过程中,复杂问题的解决往往不是一两个数据模型的简单套用就可以完成的,经常需要很多步骤综合构成一个系统性的解决方案,需要多个模型协作完成。所以,对于数据挖掘来说,选择模型可能比应用模型更重要。而且,数据挖掘不仅仅是对数据的概括和归纳,更是数据中的复杂关系的发现过程。 2)、数据挖掘的产生
数据挖掘技术的产生是一个逐渐演变的过程。在数据处理初期,人们希望通过某些方法和技术实现自动决策,当时机器学习受到了人们的广泛关注。机器学习就是将人们已知的能够成功解决某一类问题的算法输入计算机,计算机便可以代替人类进行决策。[9] 对于某一类特定的问题,机器学习可以总结出相应的解决规则,并且这种解决规则具有一定的通用性。20世纪70年代,神经网络技术正式形成并逐渐发展,随之非线性复杂结构应用到复杂数据关系的模型建立中。到了80年代,知识工程取代机器学习成为了人们关注的焦点。知识工程不同于机器学习,它是直接给计算机输入已被代码化的解决规则,计算机通过则利用这些规则来解决某些问题。[10] 80年代末期,全新的神经网络理论建立,在其指导下,人们重新回到机器学习的方法上,并利用机器学习处理大型商业数据库。在此背景下,一个新的术语“数据库中的知识发现”诞生了,简称KDD(Knowledge Discover in Database)。KDD概括了所有从源数据中发掘模式或联系的方法,人们也逐渐接受了数据挖掘的概念与过程。
3)、数据挖掘的功能
数据挖掘的核心任务是探索与建立数据的特征和数据与数据之间的关系。根据将要探索与建立的数据关系是否有目标,又可将数据挖掘
的功能分为有指导的学习(Supervised Learning)和无指导的学习(Unsupervised Learning)两大类。其中,有指导的学习是指对预设目标的概念学习和建模,主要由分类、估计和预测三方面的功能组成。[11] 而无指导的学习是指寻找和刻画数据的概念结构,主要由关联关系发现、聚类分析、可视化三方面的功能组成。[12]
① 分类(Classification):
分类主要是用可能的特征变量通过对大量数据的分析和比较提炼出可辨识类别的显著不同的结构特征,即“获取一个概念区别于另一个概念的构成和表示”。具体来说,通过分析一部分数据库中的数据,可以将数据分成不同的类别。再为每个类别建立分类分析模型,然后利用这些分类分析模型对数据库中的其他数据记录进行分类。例如,对于信用卡申请者可以分为高、中、低三个类别。
② 估计(Estimation):
数据的估计是指描述由数据表达的未知概念的模型,并给出模型参数的估计方法并进行数值计算,或者得到模型的可靠性范围等。估计与分类类似,不同之处在于,分类描述的是离散型数据变量的模型,而估计处理连续型数据变量的模型。一般来说,估计可以作为分类的前一步工作。给定一些输入数据,通过估计,得到未知的连续变量的值,然后,根据预先设定的范围,进行分类。例如,可根据购买模式估计家庭的年收入,再根据年收入对不同的家庭进行分类。
③ 预测(Prediction):
预测是指对尚未发生的、目前仍然不确定的事件或事物做出预先估计或表述,并通过对数据的处理与分析推测出事件或事物未来的发展趋势。分类和估计都可用于预测,其中分类强调不同规律的差异解释,估计则强调对未知规律通过数据表达的机制研究。但是,与分类和估计不同的是,预测更加注重数据的规律对未来的影响趋势。
④ 关联关系发现(Association Rules):
关联关系发现则试图发现和提取研究对象之间通过数据表达的相互关系,其中的组合关联规则是要确定哪些事物会一起出现或发生。例如,
某超市中的客户通常在购买A商品的同时会购买B商品。
⑤ 聚类分析(Clustering):
聚类分析主要提炼数据的相似性分组结构。聚类的目的是将相似的数据聚合在一起,而差异较大的数据分在不同的类中。在聚类中,没有事先确定好的组别,也没有样本,这与分类有着很大的区别。而且数据按照特征的相似性聚集在各自的类别中,对于数据的分析不仅要完成相似个体的聚合与分组,也要提炼出各个分组和类别内的数据中蕴含的意义。例如,一些特定症状的聚集可能代表了一种特定的疾病。
⑥ 可视化(Visualization):
数据的可视化更加强调数据形象的展现方式。数据挖掘的首要目标往往是要深入理解复杂数据库的内容,而在开始时对数据准确的描述就可以帮助我们找到进一步解决问题的途径。例如,通过Yonghong Z-Suite等工具进行数据的展现、分析和钻取,将数据挖掘的分析结果更形象、更深刻的展现出来。[13] 4)、数据挖掘的流程
①问题识别:
数据挖掘的目标就是要通过对数据的分析发现解决问题的方法,所以在问题识别阶段,首先要明确系统和组织中的关键问题。我们知道,大数据本身十分复杂,与之相关的实际问题也就极为复杂,在数据挖掘过程中必须牢牢抓住核心问题,把握问题的边界和本质,才能确定有效地数据挖掘方案。
②数据理解:
在数据挖掘过程中,显然确认研究的问题和现有的数据之间是否匹配是十分重要的。数据理解主要包含对数据价值的理解和对数据质量的理解两方面。我们知道,数据是一种特殊的资源,与物质产品相比,数据不可消耗。数据的价值存在于不同的系统不同的用户之间的传递和共享,而且在复制和更新的过程中,数据的价值可以得到提升。同时,数据也是极为脆弱的,也容易遭到破坏。数据的不一致性、重复太多、陈旧过时、不稳定等都是数据常见的质量问题。当然,在数据理解过程中,
我们也应了解数据格式和数据类型,了解数据的获取方式和异常数据的存在。
③数据准备:
在对数据进行分析之前,首先需要将数据汇集到一起,形成数据库。但是,在汇总数据时,多余数据以及数据格式与含义不一致的现象十分普遍。于是,将这些存在于不同环境中的或者存在于相对封闭的系统中的数据有机的结合在一起,实现数据资源的共享就是数据准备阶段的关键环节和主要任务。
用于数据准备的技术称为ETL技术,“ETL”是英文Extract,Transform和Load三个单词首字母的缩写,分别表示抽取、转换和装载三方面的数据处理技术。数据抽取就是将数据按照数据挖掘的项目主题从各种原始的数据系统中读取出来,这是数据挖掘所有工作的前提。然后进行数据转换,根据预先设计好的规则将数据进行转换,使得不同结构和格式的数据统一起来。最后是进行数据装载,将完成转换的数据导入到数据库中,完成数据整合的过程。
当然,汇集数据需要用到很多数据技术。对于复杂的数据格式,还需要利用编程语言的强大功能来实现数据的集成,也可以使用一些工具软件,例如SAS,SPSS,Ab Initio和PERL工具。
④建立模型:
数据建模是数据挖掘流程中最核心的环节,使用机器学习算法或统计方法对大量的数据进行建模分析,从而获得对数据系统最合适的模型。建立模型是一个反复的实验过程,需要仔细考察不同的模型和数据,以确定与待解决的问题最适合的数据模型。
⑤模型评价:
数据挖掘的模型评价包括功能性评价和服务性评价两方面的内容。其中,功能性评价是指建立的模型对任务完成的质量,常见的有精准性评价和稳定性评价。精准性评价主要衡量模型估计的准确性,而稳健性评价是对模型的抗干扰性和适应性进行评测。功能性评价中常用的两种方法是增益图法和ROC曲线法。除了技术性能的评价,服务的因素也不
容忽视。
⑥部署应用:
数据模型建立并且经过验证之后,有两种主要的途径。第一种用途是提供给分析人员做参考,通过察看和分析这个模型之后提出行动方案建议。第二种用途是将此模型应用到不同的数据集合上。
2、贝叶斯分类
贝叶斯分类(Bayes Classification)是统计学中的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习和推理都要通过概率规则实现,[14] 即利用概率统计知识进行分类。贝叶斯分类在机器学习领域中具有十分重要的地位,在处理数据时它的作用也是十分强大的。
在贝叶斯分类中,数据分类的问题转化为了分布的决策问题。贝叶斯分类也为分布的决策提供了两种产生分布函数的方法。第一种是分布估计法,即根据损失函数、先验分布和似然函数,通过后验分布,由最优决策产生分类函数。在样本连续和数据维度不高的情况下,正态分布下的线性判别和二次判别等方法是两个十分典型的方法。第二种是条件依赖关系估计法,针对数据变量是离散的而且维数较高的情况。如果变量之间存在少量的条件依赖关系,则利用条件依赖关系估计法进行分析可以获得高质量的估计结果,这种方法还可以用于分析变量之间的逻辑依赖关系。上面所说的两种方法或可称为朴素贝叶斯方法和贝叶斯网络方法。[15]
3、图模型
图模型(Graphic Models)用于刻画复杂数据系统中多个变量或不同的观测数据之间地关系,是提取高维数据的结构信息的重要工具。图模型的基本思想是通过揭示高维随机变量的相互依存关系刻画变量之间的条件独立性。在统计学中,图模型实质上就是用节点表示随机变量和用
正在阅读:
大数据的研究方法及可能应用—王磊11-01
暗黑2符文之语装备合成全套08-20
第六章 环境污染与人体健康07-22
生产管理制度(123)04-02
云南省曲靖市2016年初中语文学业水平模拟试题(二)(无答案) -03-10
嵊州市行政村规模调整情况04-27
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 王磊
- 可能
- 方法
- 应用
- 数据
- 研究
- 人教版新目标九年级活动课教案
- 自动控制原理大题完整版及答案
- 部编版2019-2020年语文中考语文专题 - 议论文写作
- 5S管理标识标签标准
- 二维码见证取样操作手册(广西) - 图文
- 2012年操作技能比赛参考题(干法熄焦工)
- 三年级数学年龄问题
- 2018烟台信息技术会考真题04选择题
- 典型案例社会服务 - 图文
- 西安财经学院12级统计学习题(1)
- 水力学 重点题 - 图文
- 2010年教师资格证考试教育学中学模拟试题及答案解析(5)
- 湖北省八校2015届高三第二次联考语文试题及参考答案
- 认可项目的生物参考区间、危急值和报告时间一览表
- 安全生产标准化(十二)事故调查报告处理
- 发动机原理
- 小学三年级语文上册修改病句练习题
- 长春高新区建设创新型科技园区的重点调研课题提纲
- 化学纤维概论
- 中学教育学练习题