一种基于时间序列的RFID供应链数据分析方法

更新时间:2023-05-13 05:16:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

电子学报2010年2期 文档装换有缺失 请下载查看完整版

年2月2010

电子学报

ACTAELECTRONICASINICAVol.38No.2A

Feb.2010

一种基于时间序列的RFID供应链数据分析方法

,3

昕1,赵

,3

文2,叶

,,,333

蔚1,张世琨2,王立福2

(北京大学信息科学技术学院,北京1;2北京大学软件工程国家工程研究中心,北京1;1.00871.00871

北京大学信息科学技术学院软件研究所高可信软件技术教育部重点实验室,北京1)3.00871

摘要:通过挖掘海量R()数据来优化供应链已经成为一个研究热点.本文针对FIDRadioFrequencyIdentification

供应链流通中出现的若干周转异常并且难以发现的问题,提出了一种基于时间序列的R将FID供应链数据分析方法.

供应链的R然后通过分段趋势分解方法分解提取的时间序列数FID数据统一成反映各环节周转状况的时间序列格式,据,并根据分解后的随机项建立阈值来判断数据是否异常,从而建立相应的时间序列分析模型;最后基于模型检测数通过多样本和多数据集的实验检测,结果表明这种方法有效并具有较高的效率.据异常.

关键词:

无线射频识别();RRFIDFID数据集;供应链;时间序列

中图分类号:T文献标识码:A文章编号:0)2P3113722112(2010A02607

ADataAnalysisMethodforRFIDSupplyChainBasedonTimeSeries

,,,,,1323132323

,,,,GAOXinZHAOWenYEWeiZHANGShikunWANGLifu

(,,,;1.SchoolofElectronicsEngineeringandComputerSciencePekingUniversityBeijing100871China,,,;2.NationalEngineeringResearchCenterforSoftwareEngineeringPekingUniversityBeijing100871China

(),3.KeyLaboratoryofHighConfidenceSoftwareTechnologiesMinistryofEducationSchoolof,,,)ElectronicsEngineeringandComputerSciencePekingUniversityBeijing100871China

:T)dAbstractooptimizeSupplyChainsystembyminingmassRFID(RadioFrequencyIdentificationatahasbeenanim,portantresearcharea.InthispaperweprovideadataanalysismethodforRFIDsupplychainbasedontimeseriesfortheexceptions

,whicharehardtobedetectedinthecirculationofsupplychain.ThismethodfirstturnslikenoneffectivetransportationandsoonRFIDdataineachtransportationphaseorstoragephaseintotheunifiedformoftimeserieswhichcanreflectthecirculationsituation

;,ofeachphasethencarriestimeseriesanalyzeontheRFIDdatabythemethodofsubsectiontendencyanalyzebuildsthethreshold;bytherandomitemsandbuildsthecorrespondingtimeseriesanalysismodelatlastcheckstheRFIDdataiftheyareabnormalbased

,onthesemodels.Throughmultisampleandmultidatasetexperimenttheresultshowsthatourmethodiseffectiveandefficient.

:r();;;KeywordsadiofrequencyidentificationRFIDRFIDdatasetsupplychaintimeseries

1引言

在R存在大量的RFID供应链系统中,FID标签和众

而在R多的读写器,因此会产生海量的数据.FID供应链

系统中,这些海量的RFID数据包含物品本身的相关信息和物品在流通中的时间与空间信息,通过有效的组织将为供应链系统用户(例如,生产商、物流企业、零售商

]1

等)提供众多有价值的信息[例如,物品在运输过程中.的路径和运输时间、特定时间的位置和运输效率等信息.同时,供应链系统用户更加关注物品在整个流通过程中出现的不符合相关企业的非功能性需求,例如运输

这些问题延迟、异常行为、物品目录异常和物品丢失等.

会在流通过程中的数据上得到体现,同时相应的数据分

析也要面对数据跨多个企业所带来的问题.

因此如何有效地分析和挖掘这些信息就成为

这方面主要有两RFID供应链系统必须要解决的问题.

类方法,一类是通过机器学习等数据挖掘的方式分析

另一类是通过定义具体业务规则分析RRFID数据,FID

数据.后者更加有效,可以明确地找出异常数据,但由于不是所有的供应链系统环节都可以提供具体的业务规则,所以应用范围比较有限;前者分析数据特征,应用范围较广,但往往存在效率和误差方面的问题.所以在实

往往要结合这两方面的优势.依际的RFID数据分析中,

靠后者的业务规则来提取数据分析的业务需求和分析

收稿日期:;修回日期:2009083120100110基金项目:国家高技术研究发展计划()(,);国家重点基础研究发展计划()();国家自863No.2006AA04A119No.2006AA04A121973No.2009CB320706然科学基金()No.60803014

内容版权归作者所有

电子学报2010年2期 文档装换有缺失 请下载查看完整版

2A期

昕:一种基于时间序列的RFID供应链数据分析方法

27

的角度、规则等,同时基于这些信息设计出相应的数据挖掘方法,从而达到既符合实际业务要求又有较大应用范围的目的.

在本文中,通过分析供应链中的业务需求,总结并

并将这些信息给出了具体的RFID数据相关业务规则,

转化为具体的时间序列模型.然后,基于时间序列模型检测出物品在供应链中流通的异常情况.具体的分析过程是通过收集供应链系统各运输阶段和仓储阶段中的R建立学习样本,并基于这些学习样本对FID数据,

供应链系统中各阶段R获FID数据进行时间序列分解,从数据中可以看出,一批物品在供应链流通中的

相同地点和相同时间会有众多的R而且对应FID数据,实际运输中物品数量的变化,这些数据也会发生变化.所以对收集到的相同时间和相同地点的RFID数据进

,,,行聚合,并通过聚合表(SIDLocationTimenTime-I-

)和映射表M表示,从而可以挖掘出代表某次物Outap品流通状况的R从而可以将跨多个企业的FID数据集.

数据统一成一致的格式进行处理.

2.2RFID数据挖掘

具有一些RFID数据的管理与普通数据管理相比,得相应的数据流模型,从而给出一种基于时间序列的RFID数据分析方法来检测反映流通中异常情况的RFID数据.

2相关研究

RFID数据处理有众多的研究方面,

研究主要集中在两方面,包括对从读写器得到的RFID编码进行处理生成相应的RFID数据集以及RFID数据挖掘.

2.1RFID数据集

当帖有RFID标签的物品进入到RFID读写器的有效范围内时,RFID读写器就会读取标签,

生成相应的RFID数据集.从这些XML数据中我们可以抽取出RFID

的原始数据集RawDataSet,包括物品的ID

、事件和地点,可以用一个三元组来表示(ID,Location,Time)[2

].

这样供应链系统的数据可以用这种格式的数据集表示,例如一批数量为n的货物在经过m个地点的供应链流程中收集的数据将如表1所示.

表1原始RFID数据集RFIDRawDataSet(ID,Location,Time)(i1,l1,t1)(i2,l1,t1),…,(in,l1,t1)(i1,l2,t2)(i2,l2,t2),…,(in,l2,t2)…

(i1,lm,tm)(i2,lm,tm),…,(in,lm,tm

)在实际过程中,往往由于操作等多种原因,同一货物在相同地点可能被读取多次,造成数据冗余,所以需要对原始数据进行清洗.这样形成RFID数据的四元组(CID,Location,Time-In,Time-Out)的形式,其中Time-

In和Time-O

ut分别代表物品进入和物品离开某地的时间,如表2所示.

表2清洗处理后的RFID数据集

RFIDDataSeAfterCleaning(CID,Location,TimeIn,Timeout)(i1,l1,t1,t2)(i2,l1,t1,t2),…,(in,l1,t1,t2)(i1,l2,t2,t3)(i2,l2,t2,t3),…,(in,l2,t2,t3)…

(i1,lm,tm,tm+1)(i2,lm,tm,tm+1),…,(in,lm,tm,tm+1

)明显的特征.RFID数据的海量,

冗余,不准确,连续性,实时性等特点都给管理策略提出了很大的挑战.这方面得到众多研究者的关注,文献[3,5]从反映企业业务逻辑的复杂事件的角度在RFID数据中挖掘各种复杂事件的相关信息.文献[4]关注基于RFID数据的收集、转换和重组从而更有效地管理供应链的物品流通.文献[13]利用时态实体关系模型管理供应链中的RFID数

据.文献[6]通过一个RFID部署模型分析业务路线和用户行为.文献[7]为了管理海量的RFID数据,提出了路径和工作流两种数据模型来存储和挖掘RFID数据.文献[9

]针对供应链中的运输效率低和一些欺诈行为给出相应的异常数据挖掘方法.

从数据采集层面上来说,数据的预处理是一个必

要的环节.

数据预处理主要包括数据清理、数据集成和数据规约.对于RFID数据,

其中最主要的工作就是数据清理.

其实,数据清理对于一般的数据挖掘任务来说都是很重要的一个环节.而RFID的数据预处理与其它普通任务的区别在于它基于流数据,所以RFID数据具有连续性并要求数据清理策略具有实时处理的能力.在此要求之上,数据清理主要解决三个问题:阅读中丢失数据,阅读中不可靠数据以及数据冗余.

然后需要对这些经过预处理的数据进行分析和挖掘.在这个阶段中,机器学习方法扮演了重要的角色.

RFID数据是一种特殊的流数据,

经过前面的数据预处理和管理,对于上层的分析算法来说,可以当成流数据来处理,而机器学习的有监督学习方法和无监督学习

方法成为重要的解决方案.

所谓监督学习,是指在学习过程中,每一个训练样本都被赋予了一个标记,学习的目标是从训练样本中归纳出标记的概念,从而能够正确预测未遇见过的样本的标记,典型的监督学习任务有分类和回归;而在非监督学习中,所有样本均无标记,学习是为了发现样本集中的内部结构,例如发现样本的本征维度,聚类就是属于非监督学习.而本文正是基于有监督学习以时间序列分析的方式来建立对RFID数据的异常检测模型,从而从海量RFID数据中分析出异常的数据.

内容版权归作者所有

电子学报2010年2期 文档装换有缺失 请下载查看完整版

28

年2010

3供应链RFID数据分析方法

我们通过抽象RFID的业务需求建立相应的数据分析规则,并转化为相应的时间序列分析规则,从而给出了基于时间序列的数据分析方法.

3.1RFID数据分析规则3.1.1RFID供应链业务需求

]11

本文中主要关注的供应链系统业务需求[如下所

示:

是大粒度运输环节的流通速度限制和个别的仓储的停

留约束,而无法对所有仓储和运输过程给出具体的时间约束.同时,虽然在实际供应链系统中不符合时间约束的异常数据很容易被检测到,但很多反映流通效率不一致的数据却无法被检测到,所以需要统一的、细粒度的可以全面衡量整个供应链物品流通过程的数据分

这里我们基于挖掘R析方法.FID数据集形成的时间序

列,形成统一的数据评测模型,从而判断供应链物品流通中的各环节是否符合业务需求.

(1

)速度一致性供应链系统中通常需要对物品的流通速度进行限制.在供应链环节中,物品的流通速度设有最大速度和最小速度.速度限制是为了防止运输过程中超出运输机制的许可,而往往出现超出限制的情况是由于流通中出现了差错,例如当重复的标签出现在异地会导致物品的流通速度过快;同时,如果物品流通速度过慢,

会导致物品流通的延迟,所以需要对速度做出限制.

由于RFID数据代表着物品的流通状况,

所以其反映流通速度快慢的时间属性也有相应的限制.

(2

)停留时间一致性在供应链中,物品一般都需要尽快地送到目的地,从而减少物品保质期的损耗,这样就需要设置在仓储中的最大停留时间,例如效率低的周转过程往往导致更长的停留时间;同时由于物品在仓储周转中所必需的调配时间,所以也会有相应的最小停留时间,如果出现更小的停留时间往往是由于该环节出现了不合理的调配.

(3)流通效率一致性在RFID供应链系统中,

在周转时间的约束内尽可能的保证周转效率趋于一致,这样才有助于管理.

例如在运输中偏长的运输时间代表着运输效率的低下,而偏短的运输时间又代表着油料等运输成本的上升.

从这些业务需求中,可以发现实际上是对供应链过程中仓储和运输环节的时间约束,因为实际操作过程中不可能随时检测到流通的速度,但可以将速度量化成时间,从而对时间提出具体的限制(最大周转时间和最小周转时间).这样我们可以把供应链各环节统一为节点序列:

P={P1,P2,…,Pm}并为P中各元素设定具体的时间约束SI

(静态时间间隔):

p∈P

,SI(p)=[SEFT(p),SLFT(p)]其中,SEFT(p)代表环节p的最小周转时间,SLFT(p)代表环节p的最大周转时间.从而依据SI可以方便的检测出异常数据.

而在实际供应链应用中,我们往往只能给出的都

3.1.2RFID时间序列分析规则

通过上面的分析,供应链中的仓储和运输环节都可以有相应的时间约束,而同时这些环节的RFID数据也可以表示成代表相应环节用时的时间随机变量.这样一次供应链中物品流通的过程就可以表示成一组按时间次序排列的随机变量序列:{Xt}=X1,X2,…,Xn.同时通过从RFID数据集中收集到的一次流通的观测

值:x1,x2,…,xn代表对供应链时间序列的一次实现.这样我们将收集到的代表供应链流通的RFID数据集按时间序列的方式进行组织,从而RFID数据分析的任务变成分析每次观察值xi是否符合随机变量Xi的约束.由于供应链中各环节用时不同,所以该时间序列各

元素之间的间隔也不同.

这样的时间序列不利于分析,所以我们将围绕供应链中单个环节的不同时段建立的时间序列进行分析.

对供应链中的单个环节(仓储或者运输)建立时间序列,将一天之中有效工作时间等分成m段,用时间序列{Yt}=Y1,Y2,…,Ym代表,其中Yi(1≤i≤m)表示第i段时间内某次物流周转时间.通过随机抽样,可以形成RFID数据样本矩阵M,如下所示.其中yi,j(1≤i≤n,1≤j≤m)代表该环节在第j个时间段里第i次物流的周转时间.

1,1y1,2…y1,m M=

y2,1y2,2…

y2,m

………

yn,1yn,2…

y n,m

基于RFID数据样本矩阵M便可以对时间序列

{Yt

}进行分解,时间序列分解关键是将时间序列的随机变量分解成三部分的叠加Yt=Tt+St+Rt[12

],

其中{Tt}是趋势项,{St}是季节项,{Rt}是随机项,这里我们采用分段趋势分解方法.首先算出趋势项,这里将趋势项{Tt}的估计定义为单天各时段物流周转时间的平均值.这样就得到:

1,11,2=…1,m=T1

T2,1=T2,2=…=T2,m=T2…

Tn,1=Tn,2=…=Tn,m内容版权归作者所有

=Tn

电子学报2010年2期 文档装换有缺失 请下载查看完整版

2A期

昕:一种基于时间序列的RFID供应链数据分析方法

29

}减去趋势项{T}得到的然后,利用原始数据{xtt

数据将只包含季节项和随机项.操作这些数据,用第k时段的平均值作为季节项S(),即k1≤k≤m的估计,

(),1y≤k≤m,,ikik

n∑i1=

}便可以通过原始数据{x}减去最后,随机项{Rtt

()Skn

[]ecord.Time>TableRecord.ID+Record.Location.MaxTimeIFR

[]THENTableRecord.ID+Record.Location.MaxTime=

记录离开时间Record.Time//

[ELSEIFRecord.Time<TableRecord.ID+Record.

].MinTimeLocation

[]THENTableRecord.ID+Record.Location.MinTime=

记录进入时间Record.Time//ENDIFENDFOR

FOReachRecordinTable

(,,,)Record.IDRecord.LoactionMinTimeMaxTimeAdd}和季节项{S}得到,如下所示:趋势项{Ttt

,1;R=y-T-S1≤i≤n≤j≤m,,ijijij

}的分解,这样就完成了对时间序列{Y可以看出t

}和季节项{S}在特定时段基本固定,趋势项{T对于tt数据的判断没有太大的意义,而随机项{Rt

}具有变化性.所以统计出特定时段随机项Rj的最大值Rmaxj和最小值Rminj

,其中:Rmaxj=m1≤ai≤xn

(Ri,j),Rminj=m1≤ii≤nn

(Ri,j

)所以对于要检测的RFID数据y

,可以通过如下方法求出对应的随机项.

T1

n∑Ti

i=

1R=y-Sj

,1≤j≤m然后检测随机项R与区间[Rminj,Rmaxj

]是否相符.如果R不在区间内,则表示该数据异常.

3.2RFID数据分析过程

根据上面得到的RFID数据分析规则,

本节给出具体的数据分析过程,包括RFID数据预处理、

时间序列分析处理和供应链数据检测.

3.2.1RFID数据预处理

我们对原始数据的预处理主要进行数据清洗和数据聚合.其中数据清洗是为了消除冗余数据以及包括物品丢失和物品目录异常在内的数据一致性处理,具

体处理过程如算法1

所示.算法1原始数据集清洗算法

输入:原始数据集RawDataSet(ID,Location,Time

)输出:清洗后数据集DataSetAfterCleaning(CID,Locaion,Time-I

n,Time-Out)方法:

Table,PreTable:EmptyHashTable

//Table记录一个物品在某一位置的进入和离开时间//PreTable记录在流通过程中上一个位置的物品流通状况FOReachRecordinRawDataSet

IFRecordisnotinPreTable

ReportReocrdismissing;Continue;ENDIF

IFRecordisnotthesameasthecorrespondingiteminPreTable

CopytheattributesofitemtoRecord

//这里attributes指那些描述物品本身的属性,不包括流通相关属性ENDIF

ToDataSetAfterCleaning//生成清理后数据集ENDFOR

而数据聚合则是进一步精简数据,找出代表一批物品在供应链中的流通状况的数据,具体处理过程如算法2所示.

算法2数据聚合算法

输入:清理后数据集DataSetAfterCleaning(CID,Location,Time-I

n,Time-O

ut)输出:聚合数据集AggregateDataSet(AID,Locaion,Time-In,Time-

Out)方法:

Table:EmptyHashTable

//Table记录相同地点、相同进入时间和离开时间的CID集合FOReachRecordinDataSetAfterCleaning

AddRecordtoTable[Record.Time-I

n+Record.Location+Record.Time-O

ut]ENDFOR

FOReachRecordinTable

GenerateacorrespondingAID

Add(AID,Record.Location,Record.Time-In,Record.Time-O

ut)ToAggregateDataSet

ENDFOR

3.2.2时间序列分析处理

由于前面的RFID四元组数据主要突显了物品在

供应链各仓储地点的状态,但与时间序列分析模型所关注的各环节用时还有差距,所以需要在RFID预处理聚合的基础上加工出物品在运输过程中的数据,即将四元组数据(ik,lq,tl,tl+1)和(ik,lq+1,tl+2,tl+3)处理成三个三元组(ID,Time-in,Time)数据,其中Time代表物品在供应链中某流通环节(运输或仓储)用时,具体处理过程如下:

(ik,tiu,te

),te=tl+1-tl

,tiu=tl

(ik,tiu+1,te+1),te+1=tl+2-tl+1,tiu+1=tl+1(ik,tiu+2,te+2),te+2=tl+3-tl+2,tiu+2=tl+2这样通过算法3我们可以得到某次物品在供应链特定路线的流通数据,其形式为(i,内容版权归作者所有

ti1,t1)(i,ti2,t2

),

电子学报2010年2期 文档装换有缺失 请下载查看完整版

30

求出趋势项T=T/n//FOReachelementinRandomSet

年2010

…,(,,)的流数据,而这正是我们时间序列分析的ititnn基础.

算法3数据重组算法

输入:聚合数据集AggregateDataSet(AID,Locaion,Time-In,Time-

Out

)输出:重组数据集DataSet(AID,Time)方法:Table,DataSet:EmptyHashTableFOReachRecordinAggregateDataSet

AddRecordToTable[Record.AID]ENDFOR

FOReachRecordinTable

SortelecmetinTable[Record.AID]byelement.Time-InFOReachelementinTable

[Record.AID]T1=element.Time-Out-element.Time-InTI1=element.Time-InAdd(AID,TI1,T1)toDataset

IFtherearenextelementinTable[Record.AID

]T2=nextelement.Time-In-element.Time-OutTI2=element.Time-OutAdd(AID,TI2,T2)toDatasetENDIF

ENDFOR

经过对RFID数据的预处理,

我们可以得到大量的关于供应链各环节(运输环节或仓储环节)的周转时间

数据.

接下来就是要对这些数据进行时间序列分析,从而建立该环节的数据模型以检验流通中在该环节的周转是否正常.这个过程主要包括后台的抽样建模和前

台的模型检测两部分.

抽样建模首先将收集到的众多的该环节的数据按照一天之中有效工作时间等分成m段,每个时间段随机抽取n个样本,其中m和n根据该环节的具体情况而定.而建模过程就是基于这些样本数据求出各时间段的趋势项、季节项以及随机项对应

区间[Rmin,Rmax].

具体过程如算法4所示.算法4时间序列建模算法输入:某环节样本数据集

SampleDataSet(ID,Time-I

n,Time)输出:时间模型数据集TimeDataSet(Time-Num,T,S,Rmin,Rmax)方法:Table,DataSet:EmptyHashTableT,S,Rmin,Rmax:0;RandomSet:Set

SortRecordinSampleDataSetbyRecord.Time-InFOReachRecordinSampleDataSet

FindthecorrespondingTime-NumtoRecord.Time-InAddRecordtoTable[Time-Num]ENDFOR

FOReachRecordinTable

FindrandomnelementsfromRecordtoRandomSetFOReachelementinRandomSet

T=T+element.TimeENDFOR

S=S+(element.TimeT)ENDFOR

S=S/n//求出季节项FOReachelementinRandomSet

Temp=element.TimeTSIFTemp<RminRmin=Temp

ELSEIFTemp>Rmax

Rmax=Temp

ENDIF

ENDFOR//

通过随机项求出阈值区间Add(Time-N

um,T,S,Rmin,Rmax)toTimeDataSetENDFOR

3.2.3供应链RFID数据检测

通过时间序列分析处理可以得到供应链中各环节

的检测模型,所以供应链RFID数据检测的过程就是将流通中收集的RFID数据按照前面的预处理过程进行处理,然后分别判断在相应环节中所属的时间段,从而

找到相应的检测模型.

根据平均趋势项和该时间段的季节项,求出随机项,并判断随机项是否在相应区间

[Rmin,Rmax

]中.4实验和工具4.1检测实验

对于本文提出的关于RFID数据的异常检测方法

是否有效,关键在于是否存在漏报和误报,以及相应的严重程度.漏报是指算法没有检测出对于应当报告异常的数据;误报是指将属于正常范围内的数据报告成异常.两者从不同角度描述了数据检测算法的精确程度,通过这两方面的结论就可以判断出方法的有效性.

由于我们的方法是基于有效数据建立检测模型来评价收集到的RFID数据,相应的检测边界不会超出正常最大边界,所以不存在漏报情况,同时通过了相应的实验也证明了这条结论,这也是方法的优势,所以实验将主要集中在误报情况上.由于我们的方法将供应链中的运输和仓储表示成统一的数据序列进行处理,所以我们只要围绕任何一段供应链过程即可检测方法的误报情况.所以在误报实验中我们首先提取一段过程的数据建立学习样本,建立时间序列检测模型;然后模拟该过程的RFID数据,

建立测试数据集;最后将通过模型在测试数据集中检测到的异常数据作为误报情况,从而观察方法的误报程度.

我们对供应链系统RFID数据检测进行了模拟实验,实验的硬件环境为P424GHz的CPU和1GB内存,操作系统为WindowsXP专业版,java运行环境为

JDK16003.

实验数据是人工生成的,通过随机函数对各节点中流通数据区间加权从而模拟供应链中各节点

内容版权归作者所有

电子学报2010年2期 文档装换有缺失 请下载查看完整版

2A期

昕:一种基于时间序列的RFID供应链数据分析方法

31

的物品流通,给出一定数量的不同物品在节点不同时段流通的数据集合.其中学习样本的数据都属于节点数据区间内部的正常数据,而测试数据要包含一部分异常数据,从而评价检测方法的在误报方面的效果.具

千条E事件集合的学习样本和一个5体包含一个5PCIS

万条的E事件集合的测试数据集.实验主要分下面PCIS两步:

()收集规模为1的5组不同样本和规模为1100000的5组不同测试数据集来进行误报实验,分别进行多样本对单数据集的误报实验和单样本对多数据集的误报实验.部分结果如图1()、()所示.其中图1()代表5aba组样本分别对数据集1的误报情况,可见在对数据集的

多数样本(样本误报测试中,误报比率没有超过35%,

,,,)的误报比率集中在(之间,而只有样23451%,3%)本1误报比率较高.图1()代表样本1对5组数据集的b误报情况,可见误报趋势基本一致,并且偏差不超过1%.

通过图1()的结果和五组样本对其他数据集的实a

验结果表明方法的误报情况都处于比较低的状况(低于5,各样本的误报情况基本稳定,虽然也有个别样%)

本的误报较大,但整体反映了方法对不同样本的有效性.图1()的结果和其他样本对五组数据集的结果反b

映了同一样本对不同数据的误报情况,不同的数据集的误报情况相差不超过1由于这些数据集的分布5%,基本相同,所以可以看出同一样本对有效范围内的误

报情况也是稳定的;同时对比相同数据集的误报情况,我们发现不同样本对不同数据集的反映是基本一致的(样本1中误报较高的数据集在其它样本中也较高,反

所以我们的方法在样本和数据集不同匹配的之一样).

情况下具有稳定性,说明了方法是基本有效的.

()我们收集规模为2的5组不同的样本,并延200用上面规模为1的5组不同的测试数据集来进行相000同的误报实验,部分结果如图1()、()所示,分别和上cd面的图1()、()对应.图1()中反映的误报情况基本abc低于1与图1()相比,其结果得到很大的改进,相%,a

比样本规模增加了一倍,误报降低了超过了一倍.可见

图1()当样本规模增大,将有效的提高方法的有效性.d

和图1()相比,同一样本对不同数据集的误报情况相b

互之间偏差不超过0降低了一倍.可见增大样本5%,规模,建立的检测模型对不同数据的误报情况更加稳定,同时误报情况会极大的下降.

总之,通过上面的分析可以得出,我们的方法的精确程度受到学习样本的影响,不同的样本导致检测模型有不同的精确度,但是通过增加样本规模可以整体极大的提高检测模型的精确度.而且这在实际中是可行的,系统可以不断的收集到海量的有效范围内的数据来供我们抽取样本,所以我们的方法符合实际要求并且有效.

4.2图形化工具

针对本文的R我们给出FID供应链数据分析方法,了相应的图形化工具,主要描述物品在供应链中的流通路线以及在流通过程中通过数据分析方法检测到的异常.

[]8

首先,我们基于g的基本地理界面和叠ooglemap

的数据收集,我们可以得到物品所经过的地点.所以首先在地图上给出了流通的描述(圆心点标记表示流通经过的地点的仓储,粗折线表示连接仓储之间的运输)如图2所示,我们的图形化工具可以根据(“广州”,.“厦门”,“温州”,“上海”,“无锡”)形式的路线描述给出相应的展示.

其次,描述了检测到的异常情况.如果某段运输的

内容版权归作者所有

加层可视化的描述了供应链中的物品流通,通过RFID

电子学报2010年2期 文档装换有缺失 请下载查看完整版

32

年2010

,,():nology200723/4176-189.

[]G,5uangmingWangGonglianJin.ResearchanddesignofRFID

[]dataprocessingmodelbasedoncomplexeventprocessingA.

InternationalConferenceonComputerScienceandSoftware

[]:,EngineeringC.WashingtonIEEEComputerSociety2008.1396-1399.

[]I,6EnLiaoWeiChihLin.Shoppingpathanalysisandtransac

[],tionminingbasedonRFIDtechnologyA.RFIDEurasia2007

[]:,1stAnnualC.WashingtonIEEEComputerSociety2007.1

数据出现异常,该段的粗折线将被标成细折线;同样,

.-5

当某地的仓储周转数据出现异常,该地点的图标将变

成实心点.

图2中描述了在厦门出现仓储周转异常,以及在温州到上海的运输出现异常.

通过google

地图这种实时、形象的载体可以有效的体现数据分析的结果,而且可以将数据分析方法封装成服务,让关心供应链流通的人们可方便的从网上了

解到流通的状况.

同时也可以很方便的集成到相关各企业的系统中.

5总结

本文依据实际中供应链在时间和空间方面的RFID

业务规则将RFID数据统一规约为时间序列格式,并给出了相应的基于时间序列的数据分析方法,从而提供

了一种检测供应链系统中异常数据的方法.

通过实验,结果表明了该方法是实际可行并且有效的,最后为了更好的描述供应链中数据检测,我们给出了相应的图形化工具,可视化的描述了供应链流通过程以及其中出现的异常情况.在研究过程中,我们发现还有更多的

业务规则可用于RFID数据的挖掘,

所以下一步工作将围绕特定规则的数据分析方法展开.

参考文献:

[1]AdamMelski,LarsThoroe,MatthiasSchumann.Managing

RFIDdatainsupplychains[J].InternetProtocolTechnology,2007,2(3/4):176-189.

[2]顿海强,赵文.一种基于RFID数据集的物品工作流挖掘

方法[J].电子学报,2008,36(12A):86-93.

DunHaiqiang,ZhaoWen.Acommodityworkflowminingap

proachbasedonRFIDdatasets[J].ActaElectronicaSinica,2008,36(12A):86-93.(inChinese

)[3]JinXingyi,LeeXiaodong,KongNing.Efficientcomplexevent

processingoverRFIDdatastream[A].SeventhIEEE/ACISInternationalConferenceonComputerandInformationScience

[C].Washington:IEEEComputerSociety,2008.75-81.[4]AdamMelski,LarsThoroe,MatthiasSchumann.Managing

RFIDdatainsupplychains[J].Int.J.InternetProtocolTech

[7]JiaweiHan,HectorGonzalez.Warehousingandminingmassive

RFIDdatasets[A].ADMA2006[C].Heidelberg:SpringerBerlin

,2006.1-18.[8]GoogleMapAPI[OL].http://code.google.com/intl/zhCN/apis/maps/.[9]ElioMasciari.AframeworkforoutliermininginRFIDdata

[A].IDEAS2007[C].Washington:IEEEComputerSociety,2007.263-267.[10]袁崇义.Petri网原理与应用[M].北京:电子工业出版社,2005.[11]AlexanderIlic.ThomasAndersen,FlorianMichahelles.In

creasingsupplychainvisibilitywithrulebasedRFIDdata

analysis[A].InternetComputing,IEEE[C].Piscataway:IEEEEducationalActivitiesDepartment,2009.31-38.

[12]何书元.应用时间序列分析[M].

北京:北京大学出版社,2007.[13]FushengWang,PeiyaLiu.TemporalmanagementofRFIDdata[A].Proceedingsofthe31stVLDBConference[C].Trond

heim:VLDBEndowment,2005.1128-1139.

作者简介:

男,1983

年出生,北京大学博士研究生,主要研究方向为软件工程和Internet环境下应用集成的相关技术.Email:gaoxin54@126.co

赵文男,1967

年出生,博士,副研究员,主要研究领域为软件工程、工作流技术和RFID相关技术.

内容版权归作者所有

本文来源:https://www.bwwdw.com/article/vfpe.html

Top