工业过程数据中缺失值处理方法的研究

更新时间：2023-06-11 01:52:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

工业数据工程师推荐度：
相关推荐

郭超，陆新建：工业过程数据中缺失值处理方法的研究开发与应用

0引言

在获取工业过程的生产数据时，因为诸多因素的影响，得到的数据往往会不同程度的存在缺失值。随着数据挖掘技术在工业生产中的应用发展，企业通常会将这些数据用于生产的监督和决策，而数据缺失会导致样本信息减少，不仅增加了分析数据的难度，而且会导致数据挖掘的结果产生误差，不能正确的指导工业生产。因此，对缺失值的处理是充分利用数据资源的关键。

国内外对缺失值的处理方法有很多[1-2]，比如随机抽取替

代法、均值替代法、最近临域替代法、多重填补法(multipleim-putation，MI)、基于期望最大化算法的替代法和回归法等常见的填补法

[3-4]

，唐建国教授[5]提出的唐建国补全法，王清毅等[6]

提

出的基于主成分分析的猜测缺失数据的方法，张红霞[7]

提出的基于信息增益的填补法等。如果选择的方法不当，可能会造

收稿日期：2009-03-12；修订日期：2009-10-03。

2010,31(6)1351

成挖掘结果有偏差，影响企业决策。

针对运用不同的方法处理工业过程数据中的缺失值效果的差别，需要要通过鉴定和比较来显现。本研究首次将MI法引入到工业过程数据的缺失值处理中，利用SAS9.1中的EnterpriseMiner模块实现对工业生产数据的挖掘，通过对挖掘结果的分析，比较删除存在缺失值的个案法、简单填补法和MI这3种方法在处理工业过程数据上的优劣，找到对工业数据缺失值处理更有效的方法。

1缺失值的处理方法分析

虽然对缺失值的处理方法有很多，但从总体上可以概括

为删除存在缺失值的个案和缺失值插补两种。

1.1删除含有缺失值的个案

删除法是一种最简单的缺失数据处理方法。在一些特定

情况下，删除法是非常有效的，比如当数据中出现多个变量的

13522010,31(6)计算机工程与设计ComputerEngineeringandDesign

分析

完整数据集1

不完整数据集

填补m次

完整数据集2

……完整数据集m

……

估计值1估计值2…

………

缺失，且缺失的数据量在整个数据集中所占的比例非常小。然而，这种方法存在缺陷，它是通过减少原数据量来获取一个新的完整数据集，这样势必会造成数据资源的浪费，丢失了隐藏在被删除数据中的有用信息，降低了统计检验的效能。

综合

最终结果

1.2缺失值插补

缺失值插补法是基于填补的方法。它的思想是利用已知

估计值m

的辅助信息，为每个缺失值找到替代值。根据找到的替代值个数，可以将填补法分为简单填补和多重填补。

如果

用代表第

图1MI填补过程

个观察对象含有缺失值的

变量，

1.2.1简单填补

简单填补法是为每一个缺失值各构造一个替代值，然后

对填补后的新的完整数据集进行分析。常见的方法有：回归法、HotDec法、平均值替代法等。

回归法是运用回归技术来替代缺失值的方法。它基于完整的数据集，通过多元回归方法来建立回归模型，将已知的变量值代入回归方程来估计缺失变量值，用得到的估计值进行填补，但应用这种方法时，当变量非线性相关或者预测变量相关性很强时会造成估计值有较大的偏差。

HotDec填补法也叫就近补齐或热平台填补。它是指在原数据集已知的观测中，采用与有缺失的观测相似度最高的那条观测中相应的变量作为其填补值。HotDec的概念简单易懂，而且变量本身的数据类型可以保持不变，是一种优于删除法和平均值替代法的缺失数据处理方法。但是对于与有缺失的观测最相似的观测却很难找出判定标准，而且在大型的数据集中，采用此方法会过于繁琐，模拟数据的分布特征时也可能会缺乏准确性。

此外，还有较常用的平均值替代法。它是对计量变量中分布为偏态的以中位数填补，分布为正态或近似正态的以均数填补的方法。

以上所述的缺失数据填补方法都有一个最主要的问题，就是填补的数据是惟一的，所以填补后的新数据集不能显现出原数据集的不确定性，难免会造成较大的偏差。考虑到简单填补共同的特点，本研究中只选用处理工业数据中的最常用的平均值替代法作为简单填补的典型方法进行研究。

的后验预测概率分布中抽取

次，最终，一个近似于缺失值的填补

值被保存下来。

数据填补是MI统计分析中的关键一步，针对不同的数据缺失模式有多种方法可以选择。假设以

，这样可以从中得到填补

值，

表示为

，，…，

和协方差矩阵∑，从条

件分布

和

1112

时，在多元正态分布的前提下，

1.2.2多重填补及其算法描述

MI方法最早是由Rubin于1987年提出，后经过Meng和

∑22

=，其对应的条件协方差矩阵为：∑221=

Schafer等人的不断完善已经形成了比较系统的理论。它是一种用两个或更多个可得到且能反映出数据本身的分布概率的值来填补缺失值的方法[8]。

近几年，MI法逐步发展，已经成为处理缺失值的常用方法[9]，得到越来越多的人关注，但在工业过程领域的研究还未见有MI方法的文献报道。

MI方法的思想来源于贝叶斯估计，它在传统的填补方法基础上，将数据的专业背景及特点考虑进去，反映出了缺失值所具有的不确定性，但它要求数据呈随机缺失[10]的形式。针对每一个缺失数据，MI法都填补

个完整

数据集[11]。

对于得到的每一个完整数据集都按照标准的完整数据的分析方法进行分析，然后将所得的结果进行综合，最后得到最终的统计推断[12]。填补的过程如图1所示。

¿Æ·Ö

·ò²¼Ð-·½

²î·´Á´

¾Ø¸´Èç

ÕóÑ-ÏÂ

£¬È»»·£º

µÄºÍºó

Ð-ÔÙ½ø

·½¶ÔÐÐ

²î²ÎÒÔ

¾ØÊýÉÏ

Á½Õó½ø

¡ÆÐÐ²½

×÷Ä£ÔË

ÎªÄâËã

ºó¡££¬²ú

¸Ã

ÉúÁ´

Ò»ÄÜ

¸ö¹»

×ãÎÈ

¹»¶¨

³¤µØ

µÄ»ã

Âí¾Û

¶ûÔÚ

Ñé

×Ü

Ìå

µÄ

¾ù

Êý

Ïò

Á¿

ºÍ

£¬µ±

/中时，就可以近似地、独立地从中为缺失的

数据抽取出填补值。

随着统计软件的出现和相应计算方法的发展与成熟，MI法已在越来越多的领域有了成功的应用，比如行为科学、生物医学等等，但在过程工业的数据分析中，这种填补的方法还没有得到充分的利用。

2实验及结果分析

在实际工业生产过程中，经常会通过观察某些生产参数

的值来预测关注的某一目标变量的值，此变量值可以反映生

郭超，陆新建：工业过程数据中缺失值处理方法的研究

2010,31(6)产状况的发生趋势。通过观察判断，决策者可以及时的调整生产方案，尽量避免生产中不良状况的发生。

2.1建模及求解

首先，根据工业过程数据的特点建立一个多元线性的

回归模型，y=

4x4

±íÊ¾²âÁ¿

ÔëÉù¡£ÓÃ´ËÄ£ÐÍÄ£ÄâÒ»¸ön=300，包含6个生产参数和1个目标变量的完整工业数据集，并对此完整数据集分别构造出具有缺失值较少(10％~20％)和较多(40％~50％)的随机缺失数据集。

应用SAS9.1中的EnterpriseMiner模块构建了一个回归模型。在预测过程中，分别采用删除含有缺失值的个案、平均值替代法和MI法对两个具有不同缺失率的数据集进行缺失值的处理，最后比较预测结果与完整数据集中的实际数据的平均标准误差，结果如表1所示。本研究用MI方法对缺失数据进行了5次填补，其中，将得到的效果最好的一组数据作为MI方法的最后结果，继而进行后续的比较。

不同缺失率情况下，分别用3种不同方法填补后的数据集用于预测目标变量的实际值，

竖轴表示

1353

13542010,31(6)计算机工程与设计ComputerEngineeringandDesign

生产决策者作出正确的判断。

本试验研究结果表明，不同方法处理结果有明显的差异：删除缺失值个案后，数据挖掘的预测结果误差较大，尤其缺失值较多时，此方法的预测结果可用性很低；简单填补效果相对较好，由于其简单易用，当缺失率较小时，可以应用于工业数据中；MI的处理方法是最有效的，尤其在缺失率较大的情况下，用此法填补后的数据集进行挖掘后，预测结果的误差明显降低，它的补偿效果更显著，可见，MI法对工业过程数据中缺失值的处理是一种有效的方法，应该得到更多的关注。

本次研究还需要的改进之处：下一步会利用更多的工业生产数据进行更深入的实验，找到提高MI法处理工业过程数据缺失值能力的方法和MI法应用于工业生产数据中不同数据缺失情况下时与数据填补效果之间更明显的关系。

参考文献:

[1]

TaylorJM,CooperKL,WeiJT,erofmultipleimputationtocorrectfornonresponsebiasinasurveyofurologicsymptomsamongAfrican-Americanmen[J].AmJEpidemiol,2002,156:774-782.[2]PigottTD.Areviewofmethodsformissingdata[J].EduResEvaluation,2001(7):353-383.

[3]金勇进.缺失数据的插补调整[J].数理统计与管理,2001(5):47-53.

[4]刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004(9):155-156.

[5]

唐建国.粗糙集理论决策推理时样本缺损的处理方法[J].重庆三峡学院学报,2000,16(6):78-80.

(上接第1350页)

[6]王清毅,蔡智,邹翔,等.部分数据缺失环境下的知识发现方法[J].软件学报,2001,12(10):1516-1524.

[7]张红霞.缺失值填充:基于信心增益的方法[J].计算机工程与设计,2006,27(24):4810-4812.

[8]茅群霞,李晓松.多重填补法与AdHoc法对模拟纵向数据集缺失值处理的比较[J].现代预防医学,2005,32(4):310-312.[9]

RobinsJamesM,WangNaisyin.Inferenceforimputationestima-tors[J].Biometrika,2000,87(1):113-124.

[10]Abraham,ToddW,Russell,etal.Missingdataareviewofcurrent

methodsandapplicationsinepidemiologicalresearch[J].CurrentOpinioninPsychiatry,2004,17(4):315-321.

[11]BuurenSVan,BoshuizenHC,KnookDL.Multipleimputationof