特征选择技术在大数据背景下的挑战

更新时间:2023-12-03 14:31:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

特征选择技术在大数据背景下的挑战 1 介绍

在一个增长的时代数据复杂性和体积和大数据的出现,特征选择扮演一个关键的角色在帮助降低高维机器学习问题。我们讨论最近的起源和特征选择的重要性和轮廓的贡献在一系列应用程序中,从DNA微阵列分析人脸识别。近年来大量数据集的创建,显然,这些只会继续增长的规模和数量。这个新的大数据场景特征选择的研究人员提供了机遇和挑战,随着越来越多的需要还可伸缩的有效的特征选择方法,考虑到现有的方法可能不够充分。

“大数据”现象展现在我们面前,其转型自然是毫无疑问的。黎明之间的时间总共2003人类生成5艾字节的数据,到2008年这一数字已经增加了两倍,至14.7艾字节。现在5 eb的数据产生每2相互产量持续上升的步伐。因为体积、速度数据的多样性和复杂性不断增加,机器学习技术已经成为不可或缺的为了从大量的否则无意义的数据中提取有用的信息。特征选择是一个机器学习的技巧(FS),即属性,允许一个问题是明确的选择,虽然无关紧要或冗余数据将被忽略。特征选择方法传统上被归类为过滤方法,包装方法或嵌入的方法[1],尽管新方法,结合现有的方法或基于其他机器学习技术处理不断出现的挑战今天的数据集。在过去的几年里,特征选择已成功应用在不同的场景中涉及大量的数据,如DNA微阵列分析、图像分类、人脸识别、文本分类。但是,大数据的出现为研究者提出了前所未有的挑战。本文概述了特征选择研究的热点,旨在鼓励科学界寻求和接受最近出现的新机遇和挑战。

本文的其余部分组织如下。第二部分解释了为什么特征选择最重要的现在,第三节简要描述了特征选择的历史和评论最先进的方法,第四部分回顾最近的应用,第五节描述了特征选择的研究人员需要满足新兴挑战在未来几年,最后,第六节总结了纸。

2 特征选择的必要性

近年来,大多数企业和组织以一种系统化的方式存储大量的数据,但没有明确其潜在有用性的想法。此外,互联网的日益普及产生了许多不同的格式的数据(文本、

多媒体等)和许多不同的来源(系统、传感器、移动设备等)。能够从这些数据中提取有用的信息,我们需要新的分析和处理工具。这些数据已经生成最后几来我们继续每天生成的字节结构[2]。大的大数据量和超高维度现在各种机器学习应用领域的循环特性,文本挖掘、信息检索等[3]。温伯格et al。[4],例如,协作的垃圾邮件过滤任务进行了一项研究有16万亿独特的特性,而谭et al .[3]的研究是基于广泛的合成和数以百万的真实数据集的数据点Oe1014T特性。大型的数据集提出了一个有趣的挑战为研究社区;引用Donoho等。[5]“我们的任务是找到一个海里捞针,梳理相关信息大量堆过剩”。

超高维度意味着巨大的内存需求和培训的高计算成本。泛化能力也被称为“维度”的诅咒。根据Donoho et al .[5],贝尔曼在1957年创造了这个五彩缤纷的词来形容的困难优化通过详尽的列举产品空间[6]。这个术语是指时出现的各种现象分析和组织数据在高维空间中(与成百上千的维度)不发生在低维的设置。数据集通常是由一个矩阵的行记录实例(或样品)和列的属性(或特性)代表手边的问题。为了解决维数问题,找到“窄”的数据集可以概括矩阵在某种意义上接近于原始。因为这些窄矩阵有一个小数量的样品和/或特性,它们可以更有效的利用比原来的矩阵。找到这些狭窄的矩阵的过程称为降维。

超高维度不仅带来难以忍受的内存需求和高计算成本的培训,而且恶化的泛化能力,因为“诅咒维度”的问题。根据[5],1957年贝尔曼[6]创造了丰富多彩的项维度的诅咒,在优化的难度通过详尽的列举产品的空间。这种现象出现在分析和组织不发生在低维的数据在高维空间的设置。任何数据集通常是由一个矩阵的行记录的实例或样本和列的属性/功能要求代表手边的问题。因此,解决维数问题的诅咒,数据集可以总结为发现“窄”矩阵,在某种意义上接近于原始。这些狭窄的矩阵只有少量的样品和/或少量的属性,因此可以更有效地比原来的大矩阵。找到这些狭窄的矩阵的过程称为降维。

特征提取是一种降维技术,解决了问题,找到最紧凑和丰富的功能对于一个给定的问题,提高数据存储和处理效率。特征提取的步骤分解为建设和选择。功能施工方法补充人类专家在“原始”数据转换成一组有用的功能使用预处理变换过程如标准化、规范化,离散化,信号增强,局部特征提取。一些施工方法不改变空间维度,而其他扩大,减少或两者兼而有之。不丢失信息是至关重要的在施工阶段的特征;第二,Elisseeff[7]建议最好总是宁可过于包容而不是丢弃有用的信息的风险。增加功能看似合理但这是要付出代价的:模式的维度的增加带来损失的风险相关

信息的可能无关紧要,嘈杂的或冗余的特性。特征选择方法的目标是减少数量的初始特征,选择一个子集保留足够的信息来获得令人满意的结果。

在一个社会,需要处理大量的数据和特性在各种各样的学科,目前迫切需要解决必不可少的特征选择问题。要理解,研究人员所面临的挑战,下一节将简要描述特征选择的起源和最近的贡献。

3一个简短的历史

特征选择的过程被定义为检测相关特性和丢弃不相关和冗余特性获取的目标特性的一个子集,准确地描述一个给定的最低性能退化的问题[1]。从理论上讲,有大量的输入特性似乎是可取的,但维度不仅是一种内在的诅咒的高维数据的问题,但更多的联合数据和算法的应用问题。出于这个原因,研究人员开始在预处理阶段选择特性,试图将他们的数据转换成一个低维的形式。

第一个特征选择的研究可以追溯到1960年代[8]。休斯[9]使用一种通用的参数模型来研究贝叶斯分类器的精度的函数特性,得出结论如下:“测量选择,不像发达技术。提出了减少和组合相反,它们是说明了一个框架,用于进一步的调查”。此后,特征选择的研究提出了许多挑战,一些研究者高度怀疑进展;在“米勒博士的论文讨论”[10],例如,RL的管理者说:“如果没有解决变量消除高速计算的帮助下经过两年的工作,那么也许是时候将焦点转移到其他问题”。在1990年代,著名的进步是在特征选择用来解决机器学习问题(11 - 13)。如今,特征选择是承认起到至关重要的作用在减少实际问题的维数,可以在越来越多的出版物在这个问题(1、7、14、15)。

开发的新的特征选择方法在过去几个decades-classified过滤器、包装或嵌入方法是基于特征选择算法之间的关系和归纳学习方法用来推断模型[1]。特征选择方法也可以根据个人评价和子集分类评价方法[16];former-also称为特性排名评估的特征通过分配权重根据相关性,而后者产生候选特征子集基于一个特定的搜索策略随后评估的一些措施。

鉴于其能力提高学习算法的性能,特征选择吸引了机器学习领域的兴趣越来越浓,在集群等过程(17、18),回归(19、20)和分类(12、21),是否监督或无监督。

可用的众多特征选择算法,一些已成为研究人员中非常流行。表1简要列出了最常用的特征选择方法,表明他们是否单变量或多变量,是否返回一个排名或子集,原出版参考和计算复杂性(其中n是样本的数量和m是功能)的数量。 这些广泛使用的方法是特征选择的艺术的状态。多元方法通常比单变量方法来获得更好的结果,但在更大的计算成本。没有统一的方法,因为每个更适合特定类型的问题。以前的工作[32],我们回顾了一些先进的算法的性能在一个人工控制的情况下,检查他们的效率在处理等问题之间的冗余特性,非线性、噪声的输入和输出和更多的功能比样品(如发生在DNA微阵列分类)。表2总结了我们的结论(星号意味着更好的适合一个给定的问题)。注意,版本的SVM-RFE线性和非线性内核进行了测试,但后者(SVM-RFE-nl) 不是申请计算与成千上万的理由一个场景功能。

ReliefF,一个很好的选择独立问题的特殊性,著称的健壮和能够处理不完整和嘈杂的数据。它可以被应用在大多数情况下,较低的偏见,包括之间的交互特性,可以捕捉当地依赖其他方法可能小姐SVM-RFE也表现良好,虽然其计算复杂度可以防止使用非常高维数据集,特别是当使用非线性的内核。mRMR也表现可接受除了与大量数据集的特性。尽管该产品的研发得到了去除冗余的概念,mRMR无法丢弃冗余特性实验的人造DNA微阵列数据集,冗余是一个承认的问题。最后,可怜的相关性和冗余的结果得到与慢性疲劳综合症、一致性、互动与流行的畜栏InfoGain评估数据集,它有四个二进制值预测和类,所需的额外特性相关的类标签75%。这四个方法选择相关功能但丢弃的四个真正相关的特性。然而,它们非常有效地不选择冗余特征与成千上万的面对场景特性[32]。

可以看到,现有特征选择方法有其优缺点。请注意,计算时间不是我们之前考虑的分析[32]。然而,如今这个因素起着至关重要的作用在大数据问题。一般来说,单变量方法有一个重要的可伸缩性优势,但代价忽视功能依赖和有辱人格的分类性能。相比之下,多元技术提高分类性能,但其计算负担往往意味着他们不能被应用到大数据。很明显,特征选择研究人员需要适应现有的方法或提出新的为了应对大数据的爆炸带来的挑战(第5部分中讨论)。

4最近的贡献

人们不断地开发出新的特征选择方法有广泛的套件提供给研究人员。下面我们评估最近的事态发展在解决高维问题等领域的集群(33、34),回归第35 - 37()和分类(38、39)。

使用不同的功能类型和组合成为今天的许多真实的应用程序的标准,导致爆炸一个名副其实的特性给出计算和信息技术的飞速发展[2]。传统上,由于处理非常高维数据的必要性,大多数新特征选择方法过滤方法。尽管如此,嵌入的方法增加了流行在过去的几年里,因为它们允许同时特征选择和分类(40-42)。至于包装方法,这些得到的关注更少,由于沉重的计算负担和过度拟合的高风险样本的数量是不够的。还有一个趋势结合算法,以混合的形式方法[43-46]或合奏[47-51]。 除了我们自己的审查[32],说在前面的小节中,其他作品回顾了使用最广泛的特征选择方法,过去的几年里。莫利纳等。[52]评估基本特征选择算法的性能在控制的情况下,考虑到数据集的相关性,无关和冗余。Saeys等。[53]创造了一个经典的基本分类特征选择技术,讨论他们在生物信息学的应用程序使用。华等。[54]在设置一些基本的特征选择方法相比涉及成千上万的特性,使用基于模型的合成数据和实际数据。布朗et al。[55]提供了一个统一框架理论特征选择的信息,带来了近二十年的研究启发式过滤标准在一个单一的理论的保护伞之下。最后,加西亚et al。[56]专用的数据预处理的书一章讨论特征选择和分析其主要方面和方法。

另一个观点是专注于特定的问题时,获得与研究人员应用不同的特征选择技术,以提高性能。在这种情况下,方法是高度依赖于手头的问题。最具代表性的应用程序下面讨论。

4.1。应用程序

特征选择方法目前被应用于不同领域的问题。下面我们描述的一些最受欢迎的应用推广这些方法的使用。

如果不是完全下降,高维数据。图3显示了运行时响应修改特性和样本的数量为四个著名的特征选择士兵方法应用于SD1数据集,一个模拟DNA微阵列数据的合成数据集[102]。

在这种情况下,特征选择的研究人员需要关注不仅在选择的准确性,而且在其他方面。其中一个因素是稳定,定义为结果的敏感性训练集的变化。其他重要的因素,可伸缩性,指的是特征选择应对越来越大训练集。一些研究已发表关于过滤器的行为在小训练集与大量的特性(55103 - 105)和更少的问题上可伸缩性[106]。什么研究主要集中在可伸缩性存在于特定的应用程序[107],修改现有的方法[108],实例的组合和特征选择策略[109]和在线[110]和[111]平行方法。最近的一篇论文谭等。[3]描述了一种新的自适应特性的扩展方法合成和真正的大数据集,基于组特征选择和多个内核的学习,它能使可伸缩性大数据场景。

一般来说,尽管大多数经典的单变量特征选择方法(每个特性单独考虑)有一个重要的优势的可伸缩性,他们忽视功能依赖性,因此可能比其他表现较差的特征选择技术。多元技术,相比之下,可能会提高性能,但降低成本的可伸缩性[112]。特征选择方法的可伸缩性是如此关键,从科学界更值得关注。之一,通常采用处理可伸缩性问题的解决方案是将数据分发到多个处理器,在下一节中讨论。

5.3。分布式特征选择

传统上,特征选择是应用于一个集中的方式,即。,一个单一的学习模型用于解决一个给定的问题。然而,由于现在数据可能分布,特征选择可以利用并发处理多个子集序列或。有几种方法可以分配一个特征选择的任务[113](注:实时处理将在5.4节讨论):

(1) 是在一个非常大的数据集的数据。数据可以分布在多个处理器,一个相同的特征选择算法可以在每个运行和结果的总和。(2)不同数据集的数据可能在不同的位置(例如的不同部分,在一个公司,甚至在不同的合作组织)。至于前面的情况下,一个相同的特征选择算法可以运行在每个结果的总和。(3)大量数据可能抵达一个连续的无限流。如果数据流到一个处理器,可以由不同的处理器处理不同部分并行代理。如果数据流到不同的处理器,他们可以处理如上所述。(4)数据集不是特别大,但不同的特征选择方法需要应用学习看不

见的实例并结合结果(通过某种投票系统)。整个数据集可以在一个处理器,通过相同或不同的特征选择方法,访问数据的全部或部分。

最后一个方法,称为整体学习,最近收到很大的关注[114]。这种方法的兴趣是由于这一事实,因为高方差是特征选择方法的问题,一个可能的解决方案是使用一个方法基于组合方法(115年,51)。

个人选择器选择器在一个被称为基地。如果基本选择器都是一样的,整体的称为均匀。整体特征选择是在两个步骤来完成的。首先,一组选择器是应用不同的特性,没有普遍的原则优化技术,可能有多个类似的特性,区分数据的子集。第二,每个特性选择器产生的输出是排名随后通过共识聚合特性,选择最常见的特征选择,等[116]。

如前所述,大多数现有的特征选择方法是不会规模有效地处理数以百万计的功能;事实上,他们甚至可能变得不适用。一个可能的解决方案可能是分发数据,在每个分区上运行特征选择,然后合并结果。分区数据分布的两种主要方法是由样本特性(垂直)或(水平)。分布式学习已经被用于扩大规模数据集太大的批量学习样本(117 - 119)。虽然分布式学习是不常见的,有一些发展关于数据分布特性[120121]。一个提议是一个分布式的方法,数据分区既垂直和水平[122]。另一个是分布式并行特征选择方法,该方法可以在分布式形式和执行并行读取数据特征选择在对称多处理模式通过多线程和大规模并行处理[111]。然而,当处理大维度的数据集时,研究人员必须分区的必要性的特性。在DNA微阵列数据的情况下,小样本大小结合大维度防止水平分区的使用。然而,前面提到的垂直分区方法不考虑一些这些数据集的特性,如高之间的冗余特性,所描述的方法完成Sharma等。[123]和Bolon-Canedo et al。[124],后者计算成本要低得多。 几个范例进行分布式学习在过去的十年里出现了。MapReduce[125]就是这样一种流行的编程模型有一个关联的实现与并行处理和生成大型数据集,在集群的分布式算法。Hadoop开发的切割和Cafarella[126]2005年,是一组算法的分布式存储和分布式处理非常大的数据集在计算机集群;这是由商品硬件和基于MapReduce处理部分。最近开发Apache火花[127],一种快速、通用发动机对于大规模数据处理,在机器学习研究人员由于迭代过程的适用性。

发达在Apache火花范式MLib[128],创建一个可扩展的机器学习库包含算法。虽然它已经包含许多学习算法支持向量机和朴素贝叶斯分类和k - means聚类

等,到目前为止,它不包括特征选择算法。这对机器学习的研究人员提出了挑战,也提供了一个机会来启动研究的一个新行。

另一个开放的研究是使用图形处理单元(gpu)分发,从而加速计算的特征选择算法。与许多应用物理模拟、信号处理、金融模型,神经网络,和无数的其他领域一样,通常运行在gpu并行算法实现了在类似CPU 100 *加速算法。现在的挑战是利用GPU的能力适应现有最先进的特征选择方法能够有效、准确地处理数以百万计的特性。

5.4。实时处理

数据被收集在一个前所未有的快节奏,相应地,需要迅速处理。社交媒体网络和便携设备主导我们的日常和我们需要复杂的方法,能够实时处理大量的数据,例如:垃圾邮件检测和视频/图像检测[2]。

古典批学习算法不能处理连续数据流流动,需要在线方法。在线学习[129],不断修改和精炼的过程模型中加入新的数据按需,已成为一个热门领域在过去的几年里,因为它解决重要问题的过程(如发生在时间。,股票价值由于其历史和其他外部因素)。映射过程实时更新,随着越来越多的样品。在线学习还可以用于非常大规模的数据集,因为一个可能的解决方案可能是学习数据顺序的方式。 在线特征选择没有得到同样的关注在线学习[129]。尽管如此,一些研究存在描述试图选择相关特性在一个场景,在该场景中,出现新的样品和新特性。Zhang et al。[130]提出了增量特征子集选择算法,原始的布尔矩阵技术,有效地选择有用的特性对于给定的目标数据。然而,特征选择方法的效率与增量没有测试机器学习算法。Katakis et al。[131]提出了一个动态特征空间的想法,即特征选择从最初的培训文档随后被认为是由学习者在系统操作。然而,可能随时间变化的特性,初步训练集通常不是在某些应用程序中可用。Katakis等。[131]结合增量特征选择与他们所谓的基于功能的学习算法在高维数据流处理在线学习。 这个框架是应用于概念漂移的特殊情况[132]固有的文本数据流(即。随着时间的推移,新的预测单词的外观)。这种方法的问题是,特点是认为离散值。珀金斯等。[133]描述了一个新颖的和灵活的方法,叫做嫁接,对选择合适的特征作为不可或缺的一部分学习正规化的预测学习框架。什么使嫁接适合大问题是,它在增量迭代的方式运作,逐步建立一套功能而使用梯度下降训练预测模型。帕金斯和

赛尔[134]解决问题的特性可用一次而不是从一开始,他们的方法,称为在线特征选择(OFS),假设,不管出于什么原因,它是不值得等待,直到所有特性学习开始之前就已经到达。他们由此衍生出一个“足够好”映射函数从输入到输出基于特性见过这么日期的一个子集。OFS在图像处理领域的潜力是演示了通过应用边缘检测问题的[135]。一个有前途的替代方法,称为网络流特征选择(OSFS),选择和冗余功能[136]密切相关。在另一个方法中,两种小说在线特征选择方法使用相关性选择动态特性;冗余是后来才考虑,当这些特性通过流媒体,但训练例子的数量仍是固定的[137]。最后,文学包含许多研究指在线特征选择和分类。一个是一个在线学习算法对特征提取和分类,实现对影响声学信号榛子仁[138]。另一个,李维和Ullman[139],提出分类图像进行特征选择,虽然他们的方法只使用一个小的子集训练数据在每个阶段。另一个描述在线特征选择执行基于权重分配给每个分类器输入[140]。

网上可以看到,特征选择是处理主要是在个体基础上,即。一步,通过筛面的特性独立的在线机器学习步骤,或通过执行在线没有后续在线分类特征选择。因此,实现实时分析和对高维数据集的预测仍然是一个挑战对计算智能移动平台上。现在的问题是要找到能够修改的灵活的特征选择方法选择特征子集作为新的训练样本的到来。也希望这些方法执行在一个动态的特征空间,将最初是空的,但新信息到达时(如添加特性。、文档的文本分类应用程序)。

5.5。功能成本

本文中我们可以看到,尽管新的特征选择方法正在开发中,但大多数更关注移除不相关和冗余功能的成本而不是获取输入功能。相关的成本与功能是不同的概念。例如,一个模式在医学诊断由可观测的症状(如年龄和性别),没有成本,以及测试的结果,相关的成本和风险;作为一个例子,侵入性手术探查是昂贵得多比血液测试[141]和高风险。特征提取风险的另一个例子是由巴哈蒙德et al。[142],动物测定在现存动物评估肉牛的优点是必要的。另一个成本是相关的计算问题。在医学成像领域,从医学图像特征提取可以计算代价高昂;此外,在纹理分析技术称为[143]共生特性,提取每个特性的计算成本的变化意味着不同的计算时间。在实时应用中,空间复杂度是可以忽略不计,而时间复杂度[144]是至关重要的。图5显示了一些示例cost.1的特性

正如一位可能会注意到,功能有一个关联的成本可以在许多实际的应用程序。然而,这并没有为机器学习研究人员关注的焦点。大部分的作品只考虑错误分类成本,收到这是惩罚,而决定一个对象属于一个类,它不是真正的一个[145]。有一些试图平衡特性的贡献和他们的成本。例如,在分类、弗里德曼[146]包括正则化项传统线性判别分析(LDA);左边的成本函数计算误差和右侧术语与k正则化参数加权,提供一个框架,根据k值不同的正则化解决方案。相关特征提取,你et al。[147]提出了一个标准选择内核参数基于最大化类间散射和最小化在类散射。一般分类框架应用人脸识别提出了莱特等。[148]研究特征提取和健壮性闭塞获得稀疏表示。这种方法,而不是测量特性和类之间的相关性,评价表示错误。 尽管前面的分类和特征提取的尝试,有少数作品特征选择中处理这个问题。在1990年代早期,Feddema et al。[144]开发方法为图像特征的自动选择一个机器人。对于这个选择过程,他们雇了一个加权准则,考虑成本的计算特性,即。的时间和空间复杂性特征提取过程。几年后,杨和Honavar[141]提出了一种遗传算法进行特征子集选择、设计适应度函数的基础上的两个标准神经网络在分类精度和分类成本(成本定义为测量所需的特定功能的价值分类,风险,等等)。黄和王[149]使用遗传算法的特征选择和支持向量机的参数优化,使用分类精度,选择特性和功能成本作为标准来设计适应度函数。混合特征子集选择基于蚁群优化方法和人工神经网络也被描述[150],启发式的,使蚂蚁选择特性的逆成本参数。最近,提出了一种新的通用框架,包括添加新术语特征选择的评价函数方法,功能成本考虑[151]。最后,徐et al。[152]检查测试时间CPU成本的两个主要组件,即分类器的评估成本和特征提取成本,并展示了如何平衡这些成本与分类精度。 虽然减少了成本的问题与特征选择在过去的几年里,收到了一些关注小说的特征选择方法,可以处理大规模和实时应用迫切需要计算成本必须预算和占。机器学习研究的新机会与最先进的算法的准确性,同时降低计算成本。

5.6。可视化和可解释性

近年来,一些降维技术开发了数据可视化和预处理。然而,尽管目标可能是更好的可视化,大多数技术的限制被可视化的功能转换的原始特性[153 - 155]。因此,当模型解释能力是很重要的,降维的特征选择是首选的技术。

一个只是一样好它的特性,特性的原因产生了并将继续发挥优势作用模型的可解释性。用户有一个双重的可解释性和透明度的必要性在特征选择和模型创建过程:(i)他们需要更多的互动模型可视化,在那里他们可以改变输入参数更好的未来与模型和可视化交互场景和(2)他们需要更多的互动特征选择过程中,使用交互式可视化,他们有权遍历不同的特征子集,而不是绑定到一个特定的子集选择算法。

一些近期作品描述使用特征选择来提高模型的解释能力在不同领域获得的。一个例子是一个方法的自动和迭代优化推荐系统,特征选择的步骤选择的最佳特征初始模型自动优化它[156]。另一个是使用特征选择改善决定trees-representing代理模拟人员在一个组织中,模型可持续性behaviors-through专家审查的理论一致性[157]。另一个是基于映射生成地形数据可视化的方法估计功能特点同时作为可视化模型训练[158]。克劳斯等。[159]描述的可视化工具帮助用户开发的预测模型问题,允许他们排名功能(根据预定义的分数),结合功能和检测尺寸之间的相似之处。

然而,数据无处不在,不断增加,和异构。我们正在见证一种第欧根尼综合症指数据:组织收集和存储吨的数据,但大多数没有工具或资源的访问,从他们的数据生成战略报告和见解。组织需要以一种有意义的方式收集数据,以便从一个丰富的数据/ knowledge-poor场景数据丰富/ knowledge-rich场景。挑战在于让用户友好的可视化结果,从而增强可解释性。由大数据应用程序复杂性隐含也强调了需要限制可视化复杂性的增长。因此,尽管特征选择和可视化处理相对隔绝彼此在大多数研究到目前为止,数据的可视化功能可能在真实世界的高维度场景中可发挥重要作用。然而,同样重要的是要记住,尽管可视化工具正越来越多地用于解释,使复杂的数据可以理解,质量相关的决策往往是由于受损的工具无法解决启发式所扮演的角色,偏见,在人机交互等设置。因此,互动工具类似于被克劳斯等。[159]是一个有趣的研究。

6。讨论和结论

特征选择被广泛用作预处理步骤,减少了尺寸的问题,提高了分类精度。需要这种技术近年来急剧增加,为了应对方案的特点是大量的输入特性和/或样本。换句话说,大数据爆炸现在有许多问题的维数。

本文分析了派拉蒙需要特征选择和简要回顾了最受欢迎的特征选择方法和一些典型的应用。虽然特征选择很可能是一个更著名的预处理技术,重要的是不要忽略了特征选择影响因素的选择。举例来说,重要的是要选择一个适当的离散化技术,考虑到某些特征选择methods-especially那些从信息论领域发展到处理离散数据。事实上,它已经证明了离散化方法的选择影响的结果特征选择过程[160161]。

需要新的预处理技术不仅影响决定使用哪一个特征选择方法,也影响其他处理阶段。一些方法返回一个根据一些指标排序的功能,在这种情况下,善的功能需要评估和决定在何处设置阈值。分类算法是评估特征的首选方式,虽然这通常意味着额外的计算负担。此外,使用某些分类器可能模糊特征选择过程的有效性。有证据表明,良好的精度可以通过分类器使用嵌入式能力即使选择的集合特性小于最佳[32]。另一个问题可能影响选择或分类器的特征选择方法的内在复杂性数据[162163]。

在某些应用程序中,例如,医疗领域,通常需要能够解释每个特性的力量。在这种情况下,最好使用一个特征选择方法,该方法返回一个分数(例如ReliefF InfoGain,卡方)而不是方法只返回一个排名或特性的一个子集,在特定的功能被忽视的力量。需要注意当决定使用哪个特征选择方法,因为这将取决于这个问题,数据的类型(数值或离散、复杂性等)和未来使用的数据。

总之,使用特征选择的适用性已经证明在不同的应用程序需要处理大量的数据。然而,近年来数据集的创建带有编号的顺序数以百万计;此外,显然,这个数字只会继续增加,计算和信息技术的快速进步。这个新场景为机器学习研究提供了机遇与挑战并存。越来越多的需要还可伸缩的有效的特征选择方法,考虑到现有的方法可能会证明不足以应付这样空前数量的特性。

此外,在社会产生的新需求,如领域的分布式学习和实时处理,需要填补一个重要差距在哪里发展。的疑问,爆炸特征点的数量为特征选择的热点研究人员推出新行研究。

本文来源:https://www.bwwdw.com/article/8axt.html

Top