中国机器学习白皮书 - 图文

更新时间:2024-06-17 22:24:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

中国机器学习白皮书

中国人工智能学会

二○一五年十一月

《中国人工智能系列白皮书》编委会

主 任:李德毅 执行主任:王国胤

副 主 任:杨放春 谭铁牛 黄河燕 焦李成 马少平 刘 宏 蒋昌俊 任福继 杨 强

委 员:陈 杰 董振江 杜军平 桂卫华 韩力群 何 清 黄心汉 贾英民 李 斌 刘 民 刘成林 刘增良 鲁华祥 马华东 马世龙 苗夺谦 朴松昊 乔俊飞 任友群 孙富春 孙长银 王 轩 王飞跃 王捍贫 王万森 王卫宁 王小捷 王亚杰 王志良 吴朝晖 吴晓蓓 夏桂华 严新平 杨春燕 余 凯 余有成 张学工 赵春江 周志华 祝烈煌 庄越挺

《中国机器学习白皮书》编写组

组长:陈松灿 高 阳

组员:黄圣君 李武军 薛 晖 俞 扬 余志文

詹德川 詹志辉 张利军 张敏灵 庄福振

1

目 录

第1章 引言 .................................................................. 1 第2章 主流机器学习技术进展 .................................. 3

2.1 度量学习 ..................................................................................... 3 2.2 多核学习 ..................................................................................... 7 2.3 多视图学习 ............................................................................... 10 2.4 集成学习 ................................................................................... 14 2.5 主动学习 ................................................................................... 18 2.6 强化学习 ................................................................................... 22

第3章 新兴机器学习技术选介 ................................ 27

3.1 迁移学习 ................................................................................... 27 3.2 深度学习 ................................................................................... 31 3.3 统计关系学习 ........................................................................... 34 3.4 演化学习 ................................................................................... 36

第4章 大数据时代的机器学习 ................................ 41

4.1 并行机器学习 ........................................................................... 41 4.2 哈希学习 ................................................................................... 46 4.3 在线学习 ................................................................................... 48

第5章 结束语 ............................................................ 52

2

第1章 引言

“机器学习”(Machine Learning)是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能[1]。机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”[2]。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等),系统对应于数据模型(如决策树、支持向量机等),而性能则是模型对新数据的处理能力(如分类和预测性能等)。因此,机器学习的根本任务是数据的智能分析与建模。

随着信息技术不断向网络化、低成本方向发展,人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。

例如,美国科学院、工程院两院院士T. J. Sejnowski等人2009年在《Science》上撰文指出,机器学习正成为发展新的学科的基础之一[3];美国政府2012年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的《国家中长期科学和技术发展规划纲要》(2006-2020年)中,以机器学习为核心的“智能”关键词在目录中6次出现。特别值得一提的是,计算机界最高奖图灵奖在2010年与2011年连续两年授予机器学习领域的两位杰出学者(L. Valiant,2010年度;J. Pearl,2011年度),这标志着机器学习经过30余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。

本白皮书旨在简要阐述当前机器学习领域的研究和应用现状,主

1

要包括三方面内容:第2章对机器学习领域主流学习技术的研究进展进行了介绍,包括度量学习、多核学习、多视图学习、集成学习、主动学习以及强化学习;第3章对近年来新兴的机器学习技术做了选介,包括迁移学习、深度学习、统计关系学习以及演化学习;第4章对大数据时代一些重要机器学习技术进行了介绍,包括并行机器学习、哈希学习以及在线学习。在内容组织上,各章节主要包括背景介绍以及相关技术进展,并在必要时对所涉及的产业应用及未来可能的研究方向进行了讨论。

2

第2章 主流机器学习技术进展

2.1 度量学习

度量是计量的准则。脱离度量,收集的数据、分析的结果也就丧失了物理意义和现实指征。而距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K近邻分类器、使用了高斯核的核方法;在聚类方法中,K均值聚类、谱聚类方法都与距离度量密切相关。

一般来说,对于任意样本x, y, z而言,距离度量函数需要满足自反(任意样本到自身的距离为0)、对称(x到y的距离等于y到x的距离)、非负(任意样本对之间的距离大于等于0)以及直递(三个样本之间的距离满足三角不等式)等性质。为了适应不同的具体应用场景,人们提出了诸如闵可夫斯基距离(欧几里得距离、曼哈顿距离、切比雪夫距离均为其特例)、马氏距离、海明距离等距离度量函数,并针对某些特定问题,提出了一些衍生距离度量,例如,动态时间规整距离DTW[4], 推土机距离EMD[5]等。

随着机器学习应用面的日益拓展,通过人工设计或定义特定的衍生距离度量函数未必吻合面对的问题,因此,通过学习获得问题相关的度量成为研究主题,卡内基梅隆大学机器学习系的邢波教授于2003年提出了距离度量学习[6]。在随后的10余年里,各类距离度量学习方法不断被提出,并在诸如社交网络连接预测、强化学习的状态连接学习、信息检索与推荐、身份验证、甚至医疗效果评估等方面都获得了广泛应用。

对距离度量学习的研究首先始于对马氏距离的深入探讨。对于任意两个d维样本

,其马氏距离的平方定义为

.

其中M是度量矩阵,并且为了保持距离的非负对称性,M应当为对

3

称半正定矩阵。一般的距离度量学习针对度量矩阵M展开。例如:E. Xing等人提出的距离度量学习方法在已知某些样本在语义层面相似、某些样本相异的语境下,通过引入必连(must-link)和勿连(cannot link)约束集概念(分别记为和,即相似样本组成的样本对属于必连约束集、相异样本对属于勿连约束集),学习出一个满足给定约束的度量矩阵,为此设法学到一个M,使相似样本间距离尽量小、同时相异样本间距离尽量大,即优化如下式所列的约束优化问题[6]:

其中

限定M半正定。考虑到度量矩阵的对称正定性,必然存

,也即对度量矩阵M的学习,等效于学

在正交基P,使得

习一个线性空间变换矩阵P。更进一步地,若M是一个低秩矩阵,那么存在正交基

,该正交基可以作为降

维矩阵使用。也即低秩距离度量学习可以衍生出一个降维方法。图2-1给出了对距离度量学习(等效于对空间进行线性变换)前后3近邻分类结果变化的示意图。

图2-1 距离度量学习前后3近邻分类效果示意图,问号为测试样本,训练样本分属于红、黑两个类别。左侧为各向同性的欧氏空间,测试样本根据多数投票应当分类为黑;右侧为度量学习后的空间,可以发现某些特征组合对近邻选取的作用得到了放大/缩小,从而导致3近邻分类结果出现差异,分类为红。

4

必连、勿连约束往往来自于样本的标记信息,而且约束所有的样本,故而使用必连、勿连约束的距离度量学习方法往往是全局度量学习方法,此类方法的代表还有:将必连约束刻画为等价关系的相关成分分析[7];使用对数行列式(logdet)差异度作为正则项的信息论度量学习[8];全局距离度量学习也被多个知名研究团队推广到在线学习环境

[9][10]

图2-2 LMNN学习前后,黄色圆点为同类训练样本,其他异色方块为类别不同的样本。LMNN学习得到的度量旨在局部区域将同类样本点拉近、异类样本点排斥开,并在同类和异类样本之间建立一个边界区域以便于kNN取得较好的分类效果。

不同于这些全局度量学习方法,Weinberger和Saul提出了一种利用邻域内三元关系进行度量学习的方法LMNN[11],图2-2给出了LMNN方法的直观示意。在LMNN中所有的约束关系都限于某个样本的局部邻域,故此类方法也被称为局部距离度量学习方法。自LMNN提出后,局部距离度量学习方案得到众多研究者的青睐,多种扩展方案被分别提出,例如,能处理多任务的mt-LMNN[16],可在不同集簇中学习多个度量的mm-LMNN[12]等;在局部距离度量学习方面,Huang等人提出了能够处理一定噪音和错误的鲁棒度量学习方法

5

RML[13];Chechik等人借鉴LMNN的思想,直接对内积形式的相似度利用局部约束加以学习,并将相关算法运用于大规模图像检索,取得了很好的效果[14];利用与局部距离度量学习类似的思想,研究者不仅针对马氏距离度量矩阵进行学习,甚至对前述的EMD距离进行了学习,例如-LMNN就针对与直方图类特征对应的EMD距离进行学习[15];在局部信息和性质的利用方面,有些研究者甚至为每个样本都学习了合适的距离度量[16]。

随着数据收集手段的提升,大数据时代已经开启。在大数据情境下,距离度量学习和降维之间的关系得到了研究者的关注。事实上,早在2003年Goldberger等人提出的NCA一文中就明确指出距离度量学习和降维之间的关系[17],Bellet等人在2005年就明确指出:几乎每种线性距离度量学习方法都对应着一类降维策略[18]。在意识到距离度量学习和降维的关系之后,研究者们提出了很多能够直接进行降维或者利用降维能力简化计算的距离度量学习方法。例如,Shi等人提出在有限基上进行距离度量学习,其中仅需学习一组基的线性组合系数即可,从而消减了距离度量学习的计算量[19]。

值得注意的是,除了降维之外,距离度量学习研究者们也设计出了独到的高维数据处理方法,如Qian等人于2014年提出了一种基于随机投影的距离度量学习方法,通过随机投影降低数据维度,并通过对偶空间的基重构获得原空间的距离度量[20];Schultz和Joachims、以及Gao等人都提出了学习一个对角距离度量矩阵代替学习完全的度量矩阵的替代方案等[21][22]。此外,最近兴起的稀疏学习技术在距离度量学习研究中也获得了运用[23]。

距离度量学习同样在计算机视觉、信息检索和生物信息学相关领域受到关注。在计算机视觉领域,距离度量学习除了被用于图像分类

[24]

、物体识别[25]、视觉追踪[26]之外,还在一些计算视觉的本质问题,

如图像表示方面等,被加以利用;信息检索的结果对距离和相似度的

6

定义十分敏感,因此这方面的工作也相对丰富[27][28];对DNA和蛋白质分子的结构分析涉及诸如编辑距离和DTW方面的研究,度量学习在这些特殊距离度量处理方面也有对应的研究工作[29][30]。

2.2 多核学习

核方法是机器学习中一类强有力的统计学习技术,被广泛应用于分类、回归、聚类等诸多领域。核选择是核方法的关键内容,因其是提高核方法泛化性能的重要一环。多核学习(Multiple Kernel Learning,MKL)通过利用多个基本核的组合代替单核,将核选择问题转化为对组合系数的选择,有效地改进了核方法。其最早应用于生物信息学领域,例如在蛋白质功能预测与定位、蛋白质分子间的交互预测等问题中,由于来自异构源的数据具有不同的特性,可以通过多个基本核矩阵的线性组合实现异构数据源的融合,基于此训练分类器取得了很好的性能。

构造多核模型,最基本的方法就是考虑多个基本核函数的凸组合:

K(x,?)??i?1?iKi(x,?),?i?0,?i?1?i?1

MM其中Ki(x,?)是基本核函数,M是基本核的总个数,?i是组合系数,条件?i?0可以确保由此产生的Gram矩阵是半正定的。因此,在MKL框架下,样本在特征空间中的表示问题转化为基本核与组合系数的选择问题[31]。在这个由多个特征空间构建的组合空间中,利用了各个基本核的特征映射能力,通过将异构数据的不同特征分量利用对应的核函数进行映射,使数据在新的特征空间中得到更好的表达,能显著提高分类性能[31]。MKL的本质问题就是,如何得到这个组合的特征空间,即如何通过学习得到组合系数[31]。近年来,研究者们提出了一系列MKL算法,主要侧重于算法的优化求解和性能提高两个方面。

Lanckriet等人考虑组合系数和分类器参数的联合优化,提出了基于二次约束二次规划问题的MKL算法[32],但是算法仅适用于具有少

7

有非负特征的问题[58]。Zhang和Huan利用协同正则化,保证学习器在不同视图的无标号样本上彼此一致[59]。但是,该算法要求所有的任务都彼此相似,这显然是不合理的。Jin等人进一步提出了一个共享结构学习框架,打破了上述限制,其从多个相关任务的共同视图上学习共享预测结构,并利用不同视图上的一致性提高性能[60]。多态学习研究不同模态样本之间的学习问题,比如图像和语句之间的关联就可刻画为多态匹配问题。Hodosh等人利用核典型相关分析算法挖掘图像和语句之间的共享特征空间,但是基于浅层表示的图像和语句通常具有高度的非线性性,导致了模态间的关联很难被挖掘[61]。Ma等人进一步使用卷积神经网络刻画图像、将语句中的词组成不同的语义片段,学习图像和语义片段之间的匹配关系和相互作用,取得了很好的性能[62]。

伴随着理论研究的发展,多视图学习亦被广泛应用于许多产业领域。例如,在垃圾网页检测中,多视图学习可综合利用基于内容作弊和基于链接作弊的多网页特征,对垃圾网页进行更有效地检测;在微博话题检测中,多视图学习可整合微博中的文本语义关系和社会化关系,克服传统的基于纯文本话题检测方法的不足;在网络入侵检测中,多视图学习可针对多种不同的入侵类型,如拒绝服务、网络嗅探、远程非法登入、非法权限提升等,在特定的属性空间中进行检测,以获得更好的检测效果;在跨语言信息检索中,对同一个自然语言描述对象,多语言的信息表示是该对象赋予不同语言符号系统的字符串表示,可自然地表示为该对象的多个视图,这些视图在本质上是语义等价的,多视图学习可充分利用这些视图的信息,取得较好的检索性能。

虽然目前多视图学习在理论分析和应用研究上取得了一定的进展,但其仍然存在值得进一步研究的问题:第一,视图的构造、分析和评价。多个不同的视图是多视图学习的根本,其性质不可避免地将对多视图学习的性能产生关键影响。如何构造多个视图数据、如何评

13

价多个视图数据的有效性等一系列问题,都是多视图学习中的重要研究内容。第二,多视图学习框架的建立。协同训练、多核学习和子空间学习提供了三种不同的多视图组合方式,但目前对于三者的研究仍是相对独立的,如何建立一个融合不同方法优点的多视图学习框架亦值得深入研究。第三,多视图研究领域的扩展。立足于实际问题,异质多视图学习、多态学习等新兴研究领域的出现为多视图学习提供了更加广阔的发展前景,而目前对于这些领域的研究仍处于起步阶段,对其的深入探索必将为多视图学习提供更多的发展机遇。

2.4 集成学习

与单一的学习模型相比,集成学习模型的优势在于能够把多个单一学习模型有机地结合起来,获得一个统一的集成学习模型,从而获得更准确、稳定和强壮的结果。近年来,各种各样的集成学习模型相继被提出,并应用于各种类型的数据集中[63][64]。

集成学习能够把多个单一学习模型所获得的多个预测结果进行有机地组合,从而获得更加准确、稳定和强壮的最终结果。集成学习的原理来源于PAC学习模型(Probably Approximately Correct learning)。Kearns和Valiant最早探讨了弱学习算法与强学习算法的等价性问题[65],即提出了是否可以将弱学习算法提升成强学习算法的问题。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为三大类:分类集成学习模型、半监督集成学习模型和非监督集成学习模型。监督集成学习模型,又称为分类集成学习模型(classifier ensemble),包括一系列常见的分类技术,如:bagging[66]、boosting[67]、随机森林[68]、随机子空间[69]、旋转森林[70]、基于随机线性预测器的集成技术[71]、神经网络集成技术[72]等等。一方面,Adaboost

14

算法是学习过程集成的典型例子。它在学习过程中不断地调整训练样本的权重,从而把多个弱分类器有机地结合成一个强分类器。另一方面,bagging技术是学习结果集成的典型例子。它通过合适的投票机制把多个分类器的学习结果综合为一个最具代表性的结果。如:图2-4显示了学习结果集成的基本框架图。当给定一个训练集,集成学习首先通过一系列的数据映射操作,如:采样、随机子空间、扰动、投影等,生成多个不同的新训练集。新训练集之间,以及新训练集与原训练集尽可能不同。这样,我们才能够探索样本在相对稳定的类结构下的不同的表现形式。与此同时,要确保新训练集仍然保持原有的相对稳定的类结构。然后,集成学习采用新训练集训练一种或多种基本分类器,并通过选择合适的投票机制,形成组合分类器。最后,运用组合分类器对测试集中的样本进行预测,获取这些样本的标记。

图2-4 Bagging集成基本框架图

图2-5显示了Adaboost集成基本框架图。当给定一个原始训练集,Adaboost算法首先赋予训练集的每个样本相等的权重系数,然后用这

图2-5 Adaboost集成基本框架图

15

些样本训练一个弱分类器,并对原始训练集的样本进行预测,接着更新训练集样本的权值。标记预测错误的样本,权重减少;标记预测正确的样本,权重增加。最后,Adaboost获得权值更新的训练集。算法不断地重复之前的步骤,不断生成新训练集,不断训练新的分类器,直到获得一组分类器。这组带权重系数的分类器将用于预测测试集中样本的标记,并获得最终结果。

图2-6显示了随机子空间集成基本框架图。当给定一个原始训练集,该算法首先对属性维进行随机采样,生成一组随机子空间;然后在子空间中生成相应的训练集,并用不同子空间下的一组新训练集来训练出一组分类器。在测试阶段,首先把测试集中的样本投影到相应的子空间中,然后用子空间的分类器预测样本标记,最后通过合适的投票机制把所有的预测结果进行综合,从而获得最终结果。

半监督集成学习模型包括多视图学习模型、共性最大化学习模型等。非监督集成学习模型,又称为聚类集成(cluster ensemble)或一致性聚类(consensus clustering),最早由Strehl所提出。经过多年的研究,大量的聚类集成学习模型被提出来,如:基于图论的聚类集成算法、基于多次谱聚类的聚类集成算法、混合模糊聚类集成算法等。

图2-6 随机子空间集成基本框架图

16

然而集成学习模型的性能往往受到外在环境(如:样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响,没有考虑到如何寻找最优的集成学习模型。而多角度自适应集成学习模型不但能够考虑到集成模型的内在环境,而且能够把握集成模型和外在环境之间的关系[73]。自适应集成模型之间会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上,从多个不同角度加入自适应学习过程,从而获取最优的集成学习模型。

国际上与集成学习模型的相关研究工作还很多,以上只是列举了部分经典的研究工作的情况。国内许多著名的专家学者也在集成学习模型上做了很多的研究,如:周志华教授的团队等,在此不一一列出。如需了解更多信息,可参考周志华教授关于集成学习的新书[74]。

集成学习未来的发展趋势主要有两大块:集成学习模型的优化和集成学习模型的并行化。在大数据时代,数据来源各有不同,大数据的海量多元异构特性已经成为大数据智能处理的瓶颈。如何对多元数据进行融合和挖掘成为大数据智能处理函需解决的问题。集成学习非常适合用于多元数据融合和挖掘,在集成学习里,集成器由一组单一的学习模型所构成,每一个学习模型都可以对应每一个来源的数据,并自动地提取该数据源所蕴含有价值规律。因此,集成学习能够提供一个统一的框架用于分析异构性极强的多元数据,实现多元数据的融合、建模和挖掘,并从中寻找出有价值的数据语义,为政府的决策提供支持。然而,由于大数据的海量特性,使得集成学习模型的并行化处理技术变得日益重要。利用高性能服务器集群实现集成学习模型的并行化处理将成为集成学习未来发展趋势之一。

集成学习作为一种提升学习系统泛化性能的常用技术,在诸多领域有着广阔的应用前景。在美国NETFLIX电影推荐比赛中,基于集

17

成学习的推荐算法获得了第一名。在多次KDD和ICDM的数据挖掘竞赛中,基于集成学习的算法都取得了最好的成绩。集成学习算法已成功应用于智能交通中的行人检测、车辆检测等,图像和视频处理中动作检测、人物追踪、物体识别等,生物信息学蛋白质磷酸化位点预测、基因组功能预测、癌症预测等,数据挖掘中的脑电数据挖掘、数据流挖掘等。例如,在生物信息学领域,Yu等人[75]成功地把集成学习模型应用于预测蛋白与酶绑定的磷酸化位点。在数据挖掘领域,Zhu等人[76]把集成学习模型与主动学习相结合,应用于数据流的模式挖掘。在多媒体领域,Xu等人[77]把集成学习模型用于检测交通视频中的行人。

2.5 主动学习

机器学习主要研究计算机如何利用经验数据提高自身性能。充分和高质量的数据是有效学习的基础和关键。在传统的有监督学习中,要求用于训练学习模型的数据均是已标记的。一般认为,已标记的数据越多,标记越精准,基于这些数据训练得到的模型也越高效。大数据时代为机器学习提供了丰富的原材料,使其发挥着越来越重要的作用,成为当前最热门的研究领域之一。然而,大数据提供机遇的同时也带来了严重的挑战,其中最典型的便是数据质量低下。在许多实际任务中,我们可以轻松获取大量数据,但这些数据大部分是未标注的。比如在图像分类任务中,绝大部分用户上传照片缺乏准确的语义标签。因此如何从仅有少量标记的大数据中学习出有效模型是一个极具挑战的重要问题。

一个最直接的解决方案是先人工标注好所有数据再进行模型训练。面对海量数据时这种方案将耗费大量人力物力,显然是不现实的。实际上,在某些现实任务中,即使标注少量数据也需要昂贵的代价。比如在语音识别任务中,一个熟练的语言学家对一段1分钟的语音数据进行语素级标注将耗费近7小时[78]。

18

一个更合理的方案是挑选一部分数据进行标注。实际上,不同数据样本对于学习模型的贡献度是不一样的,如果我们能够选取一部分最有价值的数据进行标注,有可能仅基于少量数据就能获得同样高效的模型。为了实现这一目标,关键在于如何选择出最有价值的数据样本并去获取它们的标记信息。主动学习就是研究这一问题的一种机器学习框架。其核心任务是制定选择样本的标准,从而选择尽可能少的样本进行标注来训练出一个好的学习模型[79]。

目前主要有三种主动学习场景:基于数据池的主动学习、基于数据流的主动学习以及基于合成样本查询的主动学习[79]。下面将分别对这三种主动学习场景进行介绍。

基于数据池的主动学习是最常见的一种场景,其假设所有未标记数据已经给定,形成一个数据池。主动学习算法迭代进行,每一次从未标记数据池中选择样本向专家查询标记,并将这些新标注的样本加入训练集,模型基于新的训练集进行更新,进而进入下一次迭代;基于数据流的主动学习假设样本以流的形式一个一个到达,因此在某时刻当一个样本到达的时候,算法必须决定是否查询该样本的标记。这种场景在一些实际应用中也比较常见,比如数据流源源不断产生,而又无法保存下来所有数据时,基于数据流的主动学习就更为适用;基于合成样本查询的主动学习并不是从已有样本中选择来查询标记信息,而是直接从特征空间里合成出新的样本进行查询。由于新合成的样本可能是特征空间里任意取值组合产生的,因此在某些应用问题中可能导致人类专家也无法标注这些合成样本。比如在图像分类任务中,任意像素取值合成的一幅图片可能并不能呈现出清晰的语义。

主动学习的关键任务在于设计出合理的查询策略,即按照一定的准则来选择被查询的样本。目前的方法可以大致的分为三种策略:基于信息量的查询策略、基于代表性的查询策略以及综合多种准则的查询策略。

19

基于信息量的查询策略是最为常见的,其基本思想是选择那些能最大限度减少当前模型不确定性的样本进行查询。具体而言,信息量又可以通过模型预测的置信度[80]、模型错误率下降期望[81]、委员会投票[82]等多种形式进行度量。这类方法选择样本时只基于现有的已标记样本,忽略了大量的未标记样本中蕴含的数据分布信息,可能导致采样偏差问题;基于代表性的查询策略倾向于选择那些更能刻画数据整体分布的未标记数据进行标记查询。这些方法往往通过聚类[83]或密度估计[84]等无监督技术来评估样本的代表性,由于忽略了已标记样本因此整体性能也可能会依赖于聚类结果的好坏;综合多种准则的查询策略能够同时考虑选择样本的信息量和代表性,能够有效避免采样偏差和依赖聚类结果的问题。近年来已有研究者从不同角度提出综合多种查询准则的主动学习方法,并展示出较好的实验性能[85][86]。

随着主动学习的广泛应用,一些实际任务中的新设置和新条件促进了主动学习技术的进一步延伸和发展。比如,在多标记学习任务中,一个样本可以同时具有多个标记,这时查询方式(即以何种方式查询所选样本的监督信息)对主动学习性能非常关键[87]。此外在一些任务中,提供标记信息的不再是一个专家,而是一群可能提供错误信息的用户,这时如何从带有噪音的数据中获取正确的标记信息变得非常重要[88]。还有一些任务中,可能标注每个样本的代价不一样,这使得主动学习算法在选择样本的时候不仅要考虑样本可能带来的价值,还要考虑标注它可能花费的代价[89]。这些新的主动学习设置和形式正引起越来越多的关注,使得其应用前景更为广阔。

随着大数据时代的来临,数据分析任务变得更加困难,同时也为主动学习的进一步发展和应用提供了巨大的机遇。首先,数据规模庞大但是质量低下,具有精确标记信息的数据尤其稀少。因此如何从海量数据中选择最有价值的部分数据进行人工标注成为了一个常见的重要步骤,这也恰是主动学习研究的内容。其次,数据分析任务的难

20

度越来越高,许多学习任务仅仅依靠机器已经难以达到实用的效果。因此,人与机器在学习过程中进行交互成为了一种更有效更现实的方案。在这样的背景下,主动学习可能会发展出更多新颖的设置,从传统查询样本标记衍生出更多的查询方式,从用户获取更丰富的监督信息。最后,随着数据来源的多样化趋势,主动学习在流数据、分布式学习、众包等场景下的研究和应用将会受到更多的关注。

在产业应用方面,CrowdFlower是一家专门通过网络用户收集和标注数据的公司,其创始人兼CEO、毕业于斯坦福大学的Lukas Biewald曾领导Yahoo日本的搜索团队,是一位对主动学习非常熟悉且推崇的业界人士。他在最近的一次报告中称,主动学习是现实应用中最好用的机器学习技术之一,能够非常简单地嵌入实际任务并带来显著效果。O'REILLY最近发表了一篇专门关于主动学习的报告,名字是“Real-World Active Learning”。该报告中列举了许多主动学习的真实应用案例。Stitch Fix是一家为女性提供时尚建议的在线购物网站,成立于2011年,在2014年估值为3亿美元。该公司通过机器学习算法将客户资料与结构化的服饰特征进行匹配,从而提供个性化的时尚建议和推荐。同时,该公司有近1000名时尚专家,在算法遇到困难时进行人工干预,一方面为客户提供更精准的推荐,一方面增加了标注数据使得算法性能不断提升。

Google地图能够提供准确的地图服务,其背后实际上也采用了主动学习技术。Google强大的算法会根据卫星图、航拍图以及街景车拍摄的图片提取出相关的特征并提供较为准确的服务,但是仍然会出现错误的地方,需要人工进行标注。特别是对于那些街景车无法到达的路外地点,人工标注提供了重要的帮助。GoDaddy公司有一个叫“Get Found”的服务产品,为商家提供管理和呈现他们信息的在线平台。该服务中一个关键技术问题是识别同一商家的不同别名。算法能够识别一些简单的别名,而对于那些机器难以识别的别名,则需要

21

寻求人工帮助。该产品中就是利用主动学习技术在最有价值的数据上获取人工标注从而提升算法匹配性能。此外,在垃圾邮件过滤、搜索引擎结果优化等常见产品背后,都用到了主动学习技术来选择性的获取人工标注,以此提高算法性能。

2.6 强化学习

机器学习任务可以划分为监督学习、无监督学习、和弱监督学习。监督学习面临的数据样本有完整的标记,即每一项观察都有与之对应的决策,机器从这样的样本中可以直接学习到从观察到决策的映射。无监督学习面临的数据样本完全没有标记,机器需要从数据中发现内部的结构信息。弱监督学习的目的,与监督学习一致,然而其获得的样本并没有完整的标记。从标记缺失的形式和处理方式的不同,又可以分为半监督学习、主动学习、多示例学习/多标记学习、和强化学习。半监督学习中,只有少量的样本具有标记;主动学习中,机器可以询问真实的标记,但需要考虑询问的代价;多示例学习中,一个对象表示为一组样本的包,而标记只在包的层面上,在样本的层面上却没有标记;多标记学习中,一个样本对应一组标记,因此需要处理巨大的标记组合空间问题;强化学习中,机器需要探索环境来获得样本,并且学习的目的是长期的奖赏,因此样本的标记是延迟的,下面我们详细介绍。

强化学习研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏[90]。与前面我们提到的其它学习问题的不同在于,强化学习处在一个对学习器的行为进行执行和评判的环境中:环境将执行学习器的输出,发生变化,并且反馈给学习器一个奖赏值;同时学习器的目标并不在于最大化立即获得的奖赏,而是最大化长期累积的奖赏。强化学习的设定可用图2.7来表示。例如在俄罗斯方块游戏中,学习器所处的环境为游戏规则,学习器根据当前游戏的状态输出动作,以游戏得分作为每一次动作的奖赏,学习器需

22

要最大化最终的奖赏总和。

图 2.7 强化学习设定

由于强化学习框架的广泛适用性,已经被应用在自动控制[91]、调度[92]、金融[93]、网络通讯[94]等领域,在认知、神经科学领域,强化学习也有重要研究价值,例如Frank等人[95]以及Samejima等人[96]在Science上发表了相关论文。强化学习也被机器学习领域著名学者、国际机器学习学会创始主席T. G. Dietterich教授列为机器学习的四大的研究方向之一[97]。

强化学习的目标是最大化累积奖赏,这一点与马可夫决策过程(MDP)的目标一致,因此强化学习也常常用MDP来建模。一个MDP定义为四元组,其中S表示环境状态的集合;A为“动作”集合,即学习器的输出值域;T为转移函数,定义了环境的根据动作的转移;R为奖赏函数,定义了动作获得的奖赏。MDP寻找最优动作策略以最大化累计奖赏。当MDP的四元组全部给出且S和A为有限集合时,求解最优策略的问题即转变为求解每一个状态上最优动作这一优化问题,而该优化问题通常可以通过动态规划来求解:在最终时刻,只需要考虑立即获得的奖赏,即可得知每个状态最优动作获得的奖赏;这一时刻状态的最优奖赏,随后用于求解退一时刻状态的最优动作和最优奖赏。这一关系即著名的Bellman等式[90]。因为MDP四元组全部已知,实际上并不需要与环境交互,也没有“学习”的味道,动态规划就可以保证求解最优策略。

强化学习通常要面临的难题是,对于学习器,MDP四元组并非全部已知,即“无模型” (model-free)。最常见的情况是转移函数T未

23

知以及奖赏函数R未知,这时就需要通过在环境中执行动作、观察环境状态的改变和环境给出的奖赏值来学出T和R。我们可以把强化学习方法分为基于值函数估计的方法和直接最大化累计奖赏的直接策略搜索方法。

基于值函数估计的方法试图在与环境交互的过程中估计出每一状态上每一动作对应的累积奖赏,从而得出最佳策略。这一类方法的代表有时序查分学习方法SARSA[98]和Q-Learning[99]。基于值函数估计的方法由于其目标并不是直接求得策略,而是通过值函数的学习来得到策略,即最终的策略是选择值函数大的动作,因此在较复杂的任务上会出现“策略退化”的现象[100],即虽然值函数估计较准确,但得到的策略却不好。直接最大化累计奖赏的直接策略搜索方法则不依赖于对状态上累积奖赏的估计,而直接优化策略获得的累积奖赏。这一类方法的代表有使用策略梯度方法优化参数化策略的REINFORCE[101]方法,以及使用演化算法等全局优化算法来搜索策略的NEAT+Q[102]方法等。

强化学习在实际问题上的广泛使用还面临诸多挑战,主要包括特征表示、搜索空间、泛化能力等方面的问题。

经典强化学习的研究中,状态和动作空间均为有限集合,每一个状态和动作被分别处理。然而,一方面许多应用问题具有连续的状态和动作空间,例如机械臂的控制;另一方面即使对于有限状态空间,状态之间也并非没有联系,例如棋盘上走棋有位置关系。因此如何将状态赋予合适的特质表示将极大的影响强化学习的性能。这一方面的工作包括使用更好的特征编码方式[102][103][104]等,而近期得益于深度学习技术的发展,特征可以更有效的从数据中学习,Google DeepMind的研究者在Nature上发表了基于深度学习和Q-Learning的强化学习方法Deep Q-Network[105],在Atari 2600游戏机上的多个游戏取得“人类玩家水平”的成绩。一方面可以看到特征的改进可以提高强化学习

24

的性能,另一方面也观察到,Deep Q-Network在考验反应的游戏上表现良好,而对于需要逻辑知识的游戏还远不及人类玩家。

由于强化学习关于累积奖赏的优化目标,涉及多步决策,这使得策略的搜索空间巨大、累积奖赏目标极其复杂,优化非常困难。一方面需要研究更加有效的优化方法,例如使用Cross-Entropy等方法进行优化[106][107]。另一方面,通过引入模仿学习[108][109],可以极大的缓解这一问题。模仿学习中,存在能做到接近最优策略的“教师”,并且由“教师”进行示范,提供一批演示样本,这些样本可用于直接指导每一步的动作,因此可以借助监督学习帮助强化学习。同时模仿学习的另一作用是从演示样本中学习奖赏函数,称为逆强化学习[110][111][112],从而可以在应用问题中免去对奖赏函数的定义,例如IJCAI Computers and Thought Award得主斯坦福大学Andrew Ng教授使用逆强化学习进行运动轨迹规划[113]。

经典的强化学习研究多假设学习器处在稳定环境中,即MDP四元组都是固定不变的,学习器在这样的环境中进行学习,学习到的策略也只在相同的环境中进行使用和评价。经典的强化学习研究在车床控制、工业机器人等稳定环境中取得了成功的应用。然而随着强化学习的应用向更多的领域拓展,面对的环境更加复杂,以往的限定条件下的假设不再成立。例如在自动驾驶中,不同配置的车辆驾驶到各种各样的地形,某一种车辆在某一种地形上学习到的策略可能难以应对。IJCAI Computers and Thought Award得主、AAAI Fellow、美国德克萨斯奥斯丁大学 Peter Stone教授也发文指出限定条件下的强化学习算法面临领域过配问题(domain overfitting),限定条件下设计的算法只能用于特定领域、而难以通用[103]。对此问题,已出现了一些关于强化学习领域迁移的研究[114][115][116]。

总之,强化学习的发展是以满足越来越广泛的应用需求为方向,除了上面阐述的工作,最近在奖赏反馈延时方面也出现一些工作,试

25

图解决在线应用中实际获得奖赏的过程存在延时、难以精确得知环境奖赏具体来自哪一步动作的问题[117]。值得注意的是,在国际上,强化学习是机器学习领域的重要分支,以ICML 2015为例,专门的强化学习占两个session,另外Bandit学习session和两个在线学习session中大半也是关于强化学习的工作。然而国内强化学习方面的研究相对较为冷淡,在顶级会议上发表的强化学习工作较少。

26

第3章 新兴机器学习技术选介

3.1 迁移学习

在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布;(2) 必须有足够可用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签样本数据可能变得不可用,与新来的测试样本的分布产生语义、分布上的缺口。另外,有标签样本数据往往很缺乏,而且很难获得。这就引起了机器学习中另外一个重要问题,如何利用少量的有标签训练样本或者源领域数据,建立一个可靠的模型对具有不同数据分布的目标领域进行预测。

近年来,迁移学习已经引起了广泛的关注和研究[118]。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。迁移学习广泛存在于人类的活动中,两个不同的领域共享的因素越多,迁移学习就越容易,否则就越困难,甚至出现“负迁移”,产生副作用。比如:一个人要是学会了自行车,那他就很容易学会开摩托车;一个人要是熟悉五子棋,也可以轻松地将知识迁移到学习围棋中。但是有时候看起来很相似的事情,却有可能产生“负迁移”,比如,学会自行车的人来学习三轮车反而不适应,因为它们的重心位置不同。近几年来,已经有相当多的研究者投入到迁移学习领域中,每年在机器学习和数据挖掘的顶级会议中都有关于迁移学习的文章发表,比如,ICML,SIGKDD,NIPS,IJCAI,AAAI,ICDM以及CIKM等。

27

近十几年来,很多学者对迁移学习展开了广泛的研究,而且很多集中在算法研究上,即采用不同的技术对迁移学习算法展开研究。

基于特征选择的迁移学习方法是识别出源领域与目标领域中共有的特征表示,然后利用这些特征进行知识迁移。Jiang等人[119]认为与样本类别高度相关的那些特征应该在训练得到的模型中被赋予更高的权重,因此他们在领域适应问题中提出了一种两阶段的特征选择框架。第一阶段首先选出所有领域(包括源领域和目标领域)共有的特征来训练一个通用的分类器;然后从目标领域无标签样本中选择特有特征来对通用分类器进行精化从而得到适合于目标领域数据的分类器。Dai等人[120]提出了一种基于联合聚类(Co-clustering)的预测领域外文档的分类方法CoCC,该方法通过对类别和特征进行同步聚类,实现知识与类别标签的迁移。CoCC算法的关键思想是识别出领域内(也称为目标领域)与领域外(也称为源领域)数据共有的部分,即共有的词特征。然后类别信息以及知识通过这些共有的词特征从源领域传到目标领域。Fang等人[121]利用迁移学习对跨网络中的协作分类进行研究,试图从源网络迁移共同的隐性结构特征到目标网络。该算法通过构造源网络和目标网络的标签传播矩阵来发现这些隐性特征。

基于特征映射的迁移学习方法是把各个领域的数据从原始高维特征空间映射到低维特征空间,在该低维空间下,源领域数据与目标领域数据拥有相同的分布。这样就可以利用低维空间表示的有标签的源领域样本数据训练分类器,对目标测试数据进行预测。

Pan等人[122]提出了一种新的维度降低迁移学习方法,他通过最小化源领域数据与目标领域数据在隐性语义空间上的最大均值偏差(Maximun Mean Discrepancy),从而求解得到降维后的特征空间。在该隐性空间上,不同的领域具有相同或者非常接近的数据分布,因此就可以直接利用监督学习算法训练模型对目标领域数据进行预测。Blitzer等人

[123]

提出了一种结构对应学习算法(Structural

28

Corresponding Learning, SCL),该算法把领域特有的特征映射到所有领域共享的“轴”特征,然后就在这个“轴”特征下进行训练学习。

Yeh等人[124]提出一种新的领域适应性方法解决跨领域模式识别问题。他们使用典型相关分析方法(CCA)得到相关子空间作为所有领域数据的联合表示,并提出核典型相关分析方法(KCCA)处理非线性相关子空间的情况。特别地,他们提出一种新的带有相关性正则化的支持向量机方法,可以在分类器设计中加入领域适应性能力从而进行领域适应性模式分类。

在迁移学习中,有标签的源领域数据的分布与无标签的目标领域数据的分布一般是不同的,因此那些有标签的样本数据并不一定是全部有用的。如何侧重选择那些对目标领域分类有利的训练样本?Jiang等人[125]提出了一种实例权重框架来解决自然语言处理任务下的领域适应问题。他们首先从分布的角度分析了产生领域适应问题的原因,主要有两方面:实例的不同分布以及分类函数的不同分布。因此他们提出了一个最小化分布差异性的风险函数,来解决领域适应性问题。Dai等人[126]扩展Boosting学习算法到迁移学习中,提出了TrAdaBoost算法。在每次迭代中改变样本被采样的权重,即在迭代中源领域中的样本权重被减弱,而有利于模型训练的目标领域中的样本权重被加强。他们还用PAC理论分析证明了该算法的有效性。

根据是否从多个源领域数据学习,迁移学习算法又可以分为单个源领域以及多个源领域的迁移学习。Gao等人[127]解决了不同模型的一致性问题。这两个多源领域学习的工作很好地处理了多个模型的集成问题。为了更加深入地挖掘、开发各个源领域数据的内部结构或者数据分布,Zhuang等人[128]提出了一致性正则化框架,在这个框架下,局部的子分类器不仅考虑了在源领域上可利用的局部数据,而且考虑了这些由源领域知识得到的子分类器在目标领域上的预测一致性。最近,Zhuang等人[129][130]提出基于深度学习自动编码机的迁移学习算

29

法,迁移学习效果得到了进一步提升。

迁移学习已在文本分类[128]、文本聚类[131]、情感分类[123]、图像分类[132]、协同过滤[133]等方面进行了应用研究。香港科技大学Qiang Yang实验室还做了一系列的室内定位的迁移学习方面的工作。

迁移学习作为一个新兴的研究领域,还很年轻,主要还是集中在算法研究方面,基础理论研究还很不成熟,因此值得我们进一步的研究。迁移学习最早来源于教育心理学,借用美国心理学家贾德(Judd, C.H.) 提出的“类化说”学习迁移理论来讨论下目前机器学习领域迁移学习研究存在的几个挑战性问题。首先,贾德认为在先期学习A中获得的东西,之所以能迁移到后期学习B中,是因为在学习A时获得了一般原理,这种原理可以部分或全部运用于A、B之中。根据这一理论,两个学习活动之间存在的共同要素,是产生迁移的必要前提。这也就是说,想从源领域中学习知识并运用到目标领域中,必须保证源领域与目标领域有共同的知识,那么如何度量这两个领域的相似性与共同性,是问题之一。第二,贾德的研究表明,知识的迁移是存在的,只要一个人对他的经验、知识进行了概括,那么从一种情境到另一种情境的迁移是可能的。知识概括化的水平越高,迁移的范围和可能性越大。把该原则运用到课堂上,同样的教材采用不同的教学方法,产生的迁移效果是不一样的,可能产生积极迁移也可能产生相反的作用。即同样的教材内容,由于教学方法不同,而使教学效果大为悬殊,迁移的效应也大不相同。所以针对不同的学习问题,研究有效的迁移学习算法也是另一个重要问题。第三,根据贾德的泛化理论,重要的是在讲授教材时要鼓励学生对核心的基本概念进行抽象或概括。抽象与概括的学习方法是最重要的方法,在学习时对知识进行思维加工,区别本质的和非本质的属性,偶然的和必然的联系,舍弃那些偶然的、非本质的元素,牢牢把握那些必然的本质的元素。这种学习方法能使学生的认识从低级的感性阶段上升到高级的理性阶段,从

30

而实现更广泛更成功的正向迁移。也就是说在迁移学习的过程中,应该避免把非本质的、偶然的知识,当成本质的(领域共享的)、必然的知识,实现正迁移。所以,如何实现正迁移,避免负迁移也是迁移学习的一个重要研究问题。针对以上讨论分析,未来的迁移学习研究可以在以下方面进行努力。

第一,针对领域相似性、共同性的度量,研究准确的度量方法;第二,在算法研究方面,对于不同的应用,迁移学习算法需求不一样。因此针对各种应用的迁移学习算法有待进一步研究;第三,关于迁移学习算法有效性的理论研究还很缺乏,研究可迁移学习条件,获取实现正迁移的本质属性,避免负迁移;最后,在大数据环境下,研究高效的迁移学习算法尤为重要。目前的研究主要还是集中在研究领域,数据量小而且测试数据非常标准,应把研究的算法瞄准实际应用数据,以适应目前大数据挖掘研究浪潮。尽管迁移学习研究还存在着各种各样的挑战,但是随着越来越多的研究人员投入到该项研究中,一定会促进迁移学习研究的蓬勃发展。

3.2 深度学习

自从Hinton教授2006年在著名期刊Science上发表深度学习[134]

一文以来,深度学习已受到了学术界和工业界研究人员的广泛关注。鉴于深度学习对大数据处理的有效性,斯坦福大学、多伦多大学、清华大学等许多著名大学都有学者在从事深度学习的理论研究,而谷歌、微软、百度等知名公司也投入了大量的资源研发深度学习应用技术。在数据和计算资源足够的情况下,深度学习在许多领域中体现出占据支配地位的性能表现,如语音识别[135][136]、视觉对象识别

[137][138][139]

、自然语言处理[140][141][142]等领域。

传统的方法是通过大量的工程技术和专业领域知识手工设计特征提取器,因此在处理未加工数据时表现出的能力有限;另外,多数的分类等学习模型都是浅层结构,制约了对复杂分类问题的泛化能

31

力。

而深度学习作为一种特征学习方法,把原始数据通过一系列非线性变换得到更高层次,更加抽象的表达,这些都不是通过人工设计而是使用一种通用的学习过程从数据中学习获得。深度学习主要通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。相比传统的方法,具有多个处理层的深度学习模型能够学习多层次抽象的数据表示,也受益于计算能力和数据量的增加,从而能够发现大数据中的复杂结构,从而在语音识别,图像分类等领域取得了最好结果,同样也成功应用于许多其他领域,包括预测DNA突变对基因表达和疾病的影响[143][144],预测药物分子活性[145],重建大脑回路[146]等。

图3-1 典型卷积网络结构

其中,深度卷积神经网络[138](如图3-1)在处理图像,视频,语音和音频方面表现出优异的性能,这是一种前馈式神经网络,更易于训练,并且比全连接的神经网络泛化性能更优。卷积神经网络以其局部连接,权值共享,池化和多网络层四个特征非常适用于处理多维数组数据的,最典型的是具有三个颜色通道的彩色图像。自二十世纪九十年代以来,卷积神经网络被成功应用于检测,分割,识别以及语音,图像的各个领域。比如最早是用时延神经网络[147]进行语音识别以及文档阅读[148],其是由一个卷积神经网络和一个关于语言约束的概率

32

模型组成,这个系统后来被应用在美国超过百分之十的支票阅读上;再如微软开发的基于卷积神经网络的字符识别系统以及手写体识别系统[149];近年来,卷积神经网络的一个重大成功应用是人脸识别[150]。而Mobileye和NVIDIA公司也正试图把基于卷积神经网络的模型应用于汽车的视觉辅助驾驶系统中。如今,卷积神经网络用于几乎全部的识别和检测任务,最近一个有趣的成果就是利用卷积神经网络生成图像标题。也正是因为卷积神经网络易于在芯片上高效实现[151][152],许多公司如NVIDIA, Mobileye, Intel, Qualcomm 以及Samsung 积极开发卷积神经网络芯片,以便在智能手机,相机,机器人以及自动驾驶汽车中实现实时视觉系统。

虽然深度学习在理论和应用上取得了一定的进展,但仍有一些问题亟待解决。第一、深度学习模型都是非凸函数,理论研究存在困难。第二、深度学习模型训练耗时,需要设计新的算法进行训练,或者采用并行计算平台来加快训练速度。如何克服深度学习的局限性从而提高模型的性能是未来一段时间值得研究的问题。深度学习的动机源于脑科学。随着认知神经学的发展,科学家发现了许多与人脑动态学习相关的特性,如:神经元自组织特性、神经元之间的信息交互特性、人类认知的进化特性等,而这些特性将为深度学习模型的构建提供更多的启发,促进深度学习的进一步发展。是否能够利用认知科学的一些新进展,构造更好的深度学习模型也是值得我们探讨的问题。

目前,人类已经走进大数据时代。大数据是信息科技领域的研究热点。如何从大数据中挖掘出有价值的规律,为政府和企业的决策提供支持成为新一代信息技术亟需解决的问题。而以深度学习为代表的人工智能技术是大数据智能处理的关键算法。深度学习已经成功应用于各种领域。比如:在计算机视觉领域,深度学习已成功用于处理包含有上千万图片的Imagenet数据集。在语音识别领域,微软研究人员通过与Hinton合作,首先将深度学习模型RBM和DBN引入到语

33

音识别声学模型训练中,并且在大词汇量语音识别系统中获得巨大成功,使得语音识别的错误率相对减低30%。在自然语言处理领域,采用深度学习构建的模型能够更好地表达语法信息。

各大IT公司也非常关注深度学习的应用前景,纷纷成立相关的实验室。2012年,华为成立诺亚方舟实验室,运用以深度学习为代表的人工智能技术对移动信息大数据进行挖掘,寻找有价值的规律。2013年,百度成立深度学习研究院,研究如何运用深度学习技术对大数据进行智能处理,提高分类和预测等任务的准确性。国际IT巨头Google、Facebook等也成立了新的人工智能实验室,投入巨资对以深度学习为代表的人工智能技术进行研究。Hinton等多位深度学习的知名教授也纷纷加入工业界,以深度学习为支撑技术的产业雏形正逐步形成。

3.3 统计关系学习

传统机器学习模型假设数据是独立同分布的 (independent and identically distributed, iid),也就是说,数据样本之间相互独立,不存在任何关系。然而,在很多实际应用中,尤其是最近出现的像Facebook、微信和微博这种社交网络应用中,数据样本之间是有关系的,也就是说,样本之间是不独立的。例如,互联网上网页之间存在超链接关系,学术论文之间存在引用关系,社交网络中的对象之间存在各种各样的关系,人与人之间存在着通信关系,蛋白质之间存在各种交互关系。我们把这种样本之间存在关系的数据叫做关系数据 (relational data),把基于关系数据的机器学习叫做统计关系学习 (statistical relational learning, SRL)。由于关系数据在互联网数据挖掘、社交网络分析、生物信息学、经济学、恐怖和恶意行为预测、以及市场营销等各个领域不断涌现,统计关系学习已经成为一个具有重要科学意义和应用价值的研究课题[153]。

目前主流的统计关系学习方法可以大致分为以下五类[154]:基于

34

个体推理模型的方法(IIM), 基于启发式联合推理的方法(HCI), 基于概率关系模型的方法(PRMs), 基于概率逻辑模型的方法(PLMs),以及基于隐因子模型的方法(LFMs)。

基于个体推理模型的方法(IIM方法)从关系信息中抽取出特征,并将关系数据转化成适合传统机器学习算法的特征向量形式,然后用传统学习算法来进行分类。由于IIM方法忽略了关系数据中样本之间的相关性,分类性能往往比较差。另外,这类模型主要用于分类任务,而不适合于链接预测等其它统计关系学习任务。因此,IIM方法实用性不是很强;基于启发式联合推理的方法 (HCI方法)利用有关系的样本之间的相关性,采用启发式的循环迭代方式对多个样本同时进行分类。由于考虑了有关系的样本之间的相关性,这类方法在实际应用中取得了比IIM方法更好的分类性能。但是,HCI方法主要用于联合分类,而不适合于其它统计关系学习任务。因此,HCI方法的实用性也比较有限。

概率关系模型PRMs通过拓展传统的图模型来对样本之间的相关性进行建模[155]。典型的PRMs包括关系型贝叶斯网络(RBNs)、关系型马尔可夫网络(RMNs)和关系型依赖网络(RDNs)。基于概率关系模型的方法 (PRMs方法)从概率统计角度对关系数据进行建模,能很好地处理不完整和不精确数据。但是,学习一个图模型需要进行结构学习和参数学习。结构学习是对变量之间的各种依赖关系进行确定,是一个组合优化问题,因此复杂度非常高。另外,RMNs和RDNs的参数学习也没有收敛和快速的方法,实际应用中往往采用一些近似的逼近策略。因此,PRMs方法的一个主要缺点是学习速度慢,只适合于小规模数据的处理。

概率逻辑模型PLMs将概率引进一阶谓词逻辑,能够很好地对关系数据进行建模[156][157][158]。代表性的PLMs有概率Horn溯因(PHA),贝叶斯逻辑编程(BLP),马尔可夫逻辑网络(MLNs)。PLMs的底层建

35

模工具还是基于图模型,因此基于概率逻辑模型的方法(PLMs方法)也具有PRMs方法的学习速度慢的缺点,只适合于小规模数据的处理。基于隐因子模型的方法(LFMs方法)将统计学中的隐因子模型引进统计关系学习。其中,常用的矩阵分解算法对应于某个LFM的一个最大似然估计或者最大后验估计。因此,矩阵分解方法可以看成LFMs的一种特例。大部分LFMs方法具有相对于观察到的链接数的线性复杂度,学习速度远远超过PRMs方法和PLMs方法,能很好地对较大规模数据进行建模。因此,包括矩阵分解这个特例在内的LFMs方法已经发展成为目前统计关系学习算法的主流,具有比其他方法更广阔的应用前景。

近年来,大数据应用中的关系数据呈现出下面两个特性:(1)动态性:数据是随着时间的推移不断变化的,例如,在一个社交网络中,随着时间推移,可能有成员退出,也可能有新成员加入;(2)海量性:随着数据采集设备自动化程度的不断提高,很多应用中的数据已经从TB(TeraByte)级迅速发展到PB(PetaByte)级甚至更高的数量级,对这些超大规模数据(大数据或海量数据)的分析和处理将给统计关系学习研究带来极大的挑战。目前已有的统计关系学习方法不能很好地对动态关系数据进行建模和分析,因此,设计在线学习模型以实现对动态关系数据的有效建模是统计关系学习的一个研究热点[159]。另外,目前大部分统计关系学习模型都是集中式的,也就是说,都是基于单机实现的,无论在存储还是计算方面,都不能实现对海量数据的处理。因此,设计超大规模分布式学习算法以实现对海量关系数据的有效建模是另一个值得深入探索的研究热点[160]。此外,将统计关系学习理论和方法应用到知识图谱(knowledge graph)是最近发展起来的一个新的研究热点,已经引起了越来越多研究人员的关注[161]。

3.4 演化学习

演化学习基于演化算法提供的优化工具设计机器学习算法。演化

36

算法起源于上世纪50年代[162][163],经过半个世纪的发展,今天广义的演化算法还包括模拟退火算法[164]、蚁群算法[165]、粒子群算法[166]等等,成为启发式优化算法的一个重要家族。演化算法通常具有公共的算法结构:

1. 产生初始解集合,并计算解的目标函数值;

2. 使用启发式算子从解集合产生一批新解,并计算目标函数值,并加入解集合;

3. 根据启发式评价准则,将解集合中较差的一部分解删除; 4. 重复第二步,直到设定的停止准则满足; 5. 输出解集合中最优的解。

不同的演化算法,主要在于其启发式算子、评价准则、停止准则等部件的设计不同。演化算法通常维护一个解的集合,并通过启发式算子来从现有的解产生新解,并通过挑选更好的解进入下一次循环,不断提高解的质量。可见,演化算法进行优化的过程不依赖于梯度等信息,也常被称为0阶优化方法、无梯度(derivative free)优化方法、黑箱优化方法等;也因此能够用于处理非凸、高度非线性、组合优化、目标函数未知等问题。演化算法已经被用在众多领域中,显示出演化算法解决复杂优化问题的优越性。在化学工业上,演化算法被用于设计化学反应控制,有效提高了反应产量[165]。在无线电制造领域,美国NASA Ames研究中心的研究者使用演化算法设计高性能天线,并强调演化算法能够突破人的思维局限,获得更好性能的天线设计[167]。演化算法领域的著名学者、美国Standford大学的Koza教授等人与2003年发表的文章[168]总结了由演化算法产生的“与人匹敌”的设计,涵盖了量子算法的设计、通讯协议的设计、机器人足球赛的应用、蛋白质鉴定的应用、滤波器的设计、电子电路的设计、天线的设计等等,并强调了演化算法的几项电路设计得到了比已登记的专利设计更好的性能。美国UCSC大学和NASA Ames研究中心的学者在Science[169]

37

本文来源:https://www.bwwdw.com/article/w4n3.html

Top