时间序列时序关联规则挖掘研究

更新时间:2023-06-07 14:41:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

西南财经大学

博士学位论文

时间序列时序关联规则挖掘研究

姓名:周勇

申请学位级别:博士

专业:统计学

指导教师:向蓉美

20080401

摘要

摘要

时间序列的时序关联规则指时间序列局部变化趋势之间的具有时间约束的关联关系,这些局部变化趋势发生本身具有时间先后顺序,因此这种关联关系就体现出时序性。时间序列的数据密集性、随机波动性和数据海量性决定了只有通过数据挖掘方法才能获取隐含的时序关联规则。

时间序列时序关联规则挖掘是一个系统工程,分为时间序列预处理、时间序列压缩、时间序列模式相似性度量、时间序列时序关联规则获取、解释和评价等步骤。目前关于各步骤挖掘方法的研究还不够完善,主要表现在以下方面:(1)在孤立点噪声数据的识别中,基于统计学识别法很难获得样本的分布参数,基于小波变换识别法改变了原始时间序列的真实性,基于似然比识别法的计算量较大;(2)在经典时间序列时序关联规则挖掘中,以给定长度和滑动步长的滑动窗口把时间序列离散成模式序列,然后获取频繁模式,最后生成强时序关联规则。由于滑动窗口的长度和滑动步长是由人为给定,这样时间序列的压缩结果具有很强的人为性,挖掘结果也就具有很强的不确定性:(3)时间序列模式相似性的度量是获取模式序列中频繁模式的基础,决定着时序关联规则获取。目前,元模式单调距离和元模式向量距离中对元模式表示都存在缺陷,所以元模式相似性的度量存在一定问题。而且,现有度量序列模式相似性的方法不能用距离法度量不同长度的两个序列模式的相似性。

时间序列时序关联规则具有很强的实用价值,但正如上述,目前挖掘方法却不完善。因此,本文的研究重点是时间序列时序关联规则挖掘方法的改进和完善,提出理论模型与实证分析,力求从时间序列中获取更多可靠的时序关联规则,从而为决策者提供更好的决策帮助。

本文以挖掘步骤为主线展开论述,共分八章,每章的结构安排为:首先综述国内外对本步骤所涉及的理论和研究现状,其次分析研究中存在的问题,

时间序列时序关联规则挖掘

然后提出相应的改进方法,并用实证进行分析和论证。文章主要内容包括:

(1)时间序列预处理

时间序列的预处理是时间序列时序关联规则挖掘的第一步:怎样清洗时间序列中的噪声数据。这部分首先对时间序列的噪声数据进行界定,其次综述已有时间序列孤立点噪声数据的识别方法,并且分析这些方法的优缺点,最后提出基于数据相对变化率的时间序列孤立点噪声数据的识别方法。

f2)时间序列的压缩

时间序列压缩是时间序列时序关联规则挖掘的第二步:如何把时间序列转化成模式序列。首先分析时序关联规则挖掘过程中数据压缩的必要性、目的和意义,其次综述已有时间序列压缩方法,在此基础上提出时间序列压缩方法的评价体系,并对已有压缩方法进行比较分析,然后选择有利于时序关联规则挖掘的时间序列压缩方法,最后对所选择压缩方法分割点的确定加以改进。

(3)时间序列模式相似性的度量

时间序列模式间相似性度量是时间序列时序关联规则的重要内容之一。只有很好地度量模式间的相似性,才能更好地完成模式序列中频繁模式和时序关联规则的获取。本文认为已有度量两个元模式相似性的方法存在弊端,考虑到序列模式的相似性度量涉及两个不同长度的模式,因而把度量两个不同维数的点间的距离的方法应用到序列模式相似性的度量上,提出序列模式相似性的动态时间弯曲距离度量法。

(4)时间序列时序关联规则的获取

时间序列时序关联规则挖掘的第三步:怎样从模式序列中获取频繁模式进而生成强时序关联规则。在一般时序关联规则中,对象或者事件的频繁性由其出现的次数决定。但由于时间序列模式的差异性,模式出现的次数不能决定其频繁性,而应由与其相似模式的数目决定。在时序关联规则的生成过程中,针对时间序列模式频繁性的特殊性,本文提出时序关联规则的分层获取方法,并用实证加以分析。

(51时间序列的相似性

本文对时间序列的相似性研究从两方面展开。一方面研究一元时间序列序列的相似性。首先综述国内外关于时间序列相似性的研究,并分析存在问2

摘要

题,然后针对时间序列的时序性特点提出度量时间序列相似性的图形相似法,并分析该方法的优缺点;另一方面研究多元时间序列的相似性。首先分析度量多元时间序列相似性的必要性,然后分析该研究的难点所在,最后提出两种度量时间序列相似性的方法:基于矩阵范数和基于综合属性的多元时间序列的相似性度量方法。

(6)时间序列时序关联规则挖掘平台

时间序列时序关联规则挖掘平台以朋翰作为开发语言,共有六个模块,实现数据加载、时间序列的预处理、时间序列压缩、时间序列模式相似性度量、时序关联规则获取、时序关联规则评价和时间序列相似性度量等功能。一方面对各个步骤的改进方法进行实证分析,另一方面实现从时间序列中挖掘时序关联规则。

本文的研究按照时序关联规则的挖掘步骤展开,从时间序列时序关联规则的第一步时间序列预处理到最后一步时序关联规则解释与评价。在每个步骤中,对已有研究进行梳理,对所涉及的理论模型进行推导,并提出改进方法。由于时间序列相似性在时间序列数据挖掘中起到重要作用,本文专门对时间序列的相似性进行探讨。本文的主要创新点归纳为:

(1)在时序关联规则挖掘的时间序列预处理中,提出基于数据相对变化率的孤立点噪声数据识别方法。时间序列一般都含有噪声数据,其存在对时序关联规则的挖掘有很大影响,因此,在挖掘前必须去除噪声数据。但由于时间序列压缩对孤立点噪声数据不具有容忍性,而且孤立点的存在会影响时间序列的分割和时间序列模式表示,所以识别和删除时间序列中的孤立点噪声数据便成为时间序列预处理的重要工作之一。数据是否是时间序列的孤立点,关键是看它与周围数据的跳跃程度。本文以时间序列数据相对变化率作为判断其跳跃程度的标准,提出新的孤立点噪声数据识别方法。

(2)在时间序列模式相似性度量中,提出度量两个元模式相似性的加权距离法以及可以度量两个不同长度序列模式相似性的动态时间弯曲距离法。在时序关联规则的挖掘中,元模式单调距离法、元模式向量距离法度量两个元模式相似性都不适合频繁模式的获取。因此,本文针对时间序列模式的特点提出元模式的加权距离,并在此基础之上提出度量两个序列模式相似性的动态时间弯曲距离法。3

时间序列时序关联规则挖掘

(3)在时间序列时序关联规则的获取中,提出分层时序关联规则获取方法。时序关联规则的时间约束、关联规则的前、后件长度决定时序关联规则的获取。为了降低获取中的难度,只有把时序关联规则的前件分成不同的长度,由此提出分层时序关联规则的获取方法。由于频繁模式界定上的差异,这种方法有别于一般的获取方法;但也由于这种方法考虑到各种长度的关联规则前件,所以具有其他时序关联规则获取方法所不具有的优点。

(4)在度量两个时间序列的相似性时,因为已有一元时间序列相似性的度量方法忽略了时间序列是以时间为变量的函数,本文经研究论证提出度量两个一元时间序列相似性的图形相似法。同时,在多元时间序列的相似性度量中,因考虑到多元时间序列的存储结构是矩阵,本文提出度量两个多元时间序列相似性的基于矩阵范数的多元时间序列相似性度量方法和基于综合性的多元时间序列相似性度量方法。

关键词:时间序列,孤立点噪声数据,时间序列压缩,模式相似性,时序关联规则,时间序列相似性.4

一一

ABSTRACT些兰里坠璺

Temporalassociationrulesoftimeseriesalethetemporalconstrainingassociationamongpartlychangesoftimeseries.Partlychangesoftimeseriesthemselveshavetimesequence,SOtimeorderiSacharacteristicoftheassociation.Timeserieshavethecharacteristicsofdatadensenessandstochasticfluctuation,andtemporalassociationrulesofpartly

SOchangesareimpliedinthelargedataset,therulescallbeobtainedonlythroughdatamining.

isaTheminingoftemporalassociationrulesoftimeseries

engineering,which

datasystematicCanbedividedintotimeseriesdatapre-processing,timeseriesseriesdatasimilaritymeasure,therequirementoftemporalcompression,time

associationrulesandtheinterpretationandevaluationoftemporalassociation

arules.Theresearch

lot,butisfarfromonminingmethodsoftemporalassociationruleshasgainedmainpointsareaspeffection.Thefollows.

statisticsishardtOgainthe

on(1)Inrecognizingoutlier,themethodbasedonsample’Sdistributionparameter,themethodbased

changetheauthenticityoforiginaltime

ratiohasawavelettransformwillonseries,andthemethodbasedlikelihoodlargeamountofcalculation.

given

enduplengthwith(2)Inandminingtheclassicaltemporalassociationrules,thetimeseriesarediscreditedintosequentialpatternsbytheslidingwindowwiththesteps.Thefrequentpatternwillbeacquiredanditwill

strengthenedtemporalassociationrules.Becausethelengthandstepfortheslidingwindowarearbitrary,thereiSalotofuncertaintyintheresultfromthetimeseriescompression.

(3)Similarity

patterninmeasureoftimeseriesisthebaseforacquiringthefrequentsequentialpatterns,andalsodecidestheobtainmentoftemporalassociationrules.Themeta-patternmonotony

distancebothhavesomeflawsin

measureofmeta—patternhasdistanceandthemeta.patternvectordefiningthemeta-pattern,SOproblems.Andthethesimilaritymethodsofsomeexisting

measunngseriespattern’Ssimilaritycannotmeasuretheseriespattern,Ssimilaritvoftwodifferentlengths.

Temporalassociationrulesoftimeseriesarepracticalvaluable,buttheexistingmmmgmethodshavesomeflaws.So,thedissertationfbcusesont11eImprovementandpeffectionoftheminingmethodoftemporalassociationruleSoftimeseries,offeringthetheoreticalmodelsandempiricalanalysis,inordert0gainmorereliabletemporalassociationrulesfromtimeseriesandhelDdecision—making.

Thedissertationaddressestheminingoftemporalassociationrules.Aimingatthefaultinessofeverystep,theauthorsummarizestheexistingrelativeresearch.

offerssolutionsandcarriesoutempiricalanalysis.Thedissertationcanbe

into8chapters,themaincontentareasfollowing.

(1)TimeSeriesDataPre-processing

Timeseriesdatapre—processingisthefirststep0fminingtemporal

thatishowtocleanthenoisedataintimeseries.Inthispart.the

firstdefinesthenoisedata,andthensumsuptheexistingrecognition

ofoutlieroftimeseries,aswellasanalyzestheiradvanta2esand

lastcomesupwiththerecognitionmethodofoutlieroftime

basedonrelativevariancerateoftimeseries.

(2)TimeSeriesDataCompression

Timeseriesdatacompressionisthesecondstepofminingtemporal

rules,whichmeanshowtotransformtimeseriesintoseouential

theauthoranalyzesthenecessity,objectiveandmeaningof

datainminingtemporalassociationrules.Andthenanalyzesthe

compressingways,andthenoffersestimatingsystemtovaluetimeseries

compressmn Aftercomparativeanalysis,choosestimeseriesdata

method,whichisinfavorofmining,andfinallyimprovesthe

ofdivisionpoint.

(3)TimeSeriesDataSimilarityMeasure

SimilaritymeasureofsequentialpatternsistheimportantcontentoftemporaI

rulesoftimeseries.Onlythesimilarityamongpatternsisproperly

acquirementoffrequentpatternsinsequentialpatternsandtemporal

rulesCallbesuccessfullyaccomplished.TheexistingtWOmethodsthendividedassocla“衄rulesauthormethodsdlsadvantages Atseriesassociationpatterns Firstlycompressmgexlstingdatacompressmnreorganizationassociationmeasured,theassociation

ABSTRACT

havemoreorlessdisadvantages.Becausethesimilarityamongsequentialpatternscomesdowntotwomodelsofdifferentlength,byusingthemethodofmeasuringdifferentdimensionsdistance,theauthorputsforwarddynamictimewarpingdistancemeansofsequentialpattern.

ofTemporalAssociationRules(4)Acquirement

fromThethirdstepofminingtemporalassociationrulesishowtogetfrequentpatternssequentialpatters,andthentobuildstrengthenedtemporal

orassociationrules.Incommontemporalassociationrules,the

not,anditsfrequencydependsonobjectsmayappearobjectsandtheappearingtimesofincidents.Becauseofthedifferenceoftimeseriespattern,thefrequencycannotbedecidedbysinglemodel’Sappearingtimes,butbytheamountofsimilarpatterns.Duringtheprocessofcreatingtemporalassociationrules,accordingtotheparticularityoftimeseriespatterns,theauthoroffersthelayeredmeansofgettingtemporalassociationrulesandprovesit.

(5)SimilarityofTimeSeries

Thedissertationclarifies

one

onsimilarityoftimeseriesfromtwoaspects.Onthehand,thedissertationstudiedthesimilarityofone—varietytimeseries.Basedonthesummaryofexistingresearchtimeseries,theauthorputsforwardthe

oftimeseriesandgraphicsimilaritymeasure to -measuresimilarityanalyzesthe

method.Ontheotherhand,thedissertationresearchessimilarityofmultivariatetimeseries.Firstlytheauthoranalyzesthenecessityofresearchingit,andthenthedifficultyinit,finallycomesupwith

basedontwowaystomeasuresimilarityoftimeseries,matrixandsynthesisattribution.

FlatofTemporalassociationrulesoftimeseries(6)Mining

TheminingflatoftemporalassociationrulesoftimeseriesusesJAVAasexploitinglanguages,andhas6modules.Ithasseveralfunctions,suchasloadingdata,timeseriesdatapre—processing,timeseriesdatacompression,timeseriesdatasimilaritymeasure,therequirementoftemporalassociationrulesandtheinterpretationandevaluationoftemporalassociationrules,etc.Thedissertationproveseveryimprovementbyempiricalanalysis,andalsorealizestominetemporalassociationrulesfrom

Combiningwithtimeofseries.theoriesmining

ontemporalassociationrules,thedissertationcarriesoutsystemicresearcheverystep,fromthefirststep,time3

里!垦!!!竺!121里!里2型尘1211兰!12里竺!!!坚坚竖!!里竺!兰塑!!

seriesdatapre-processing,tothelaststep,theinterpretationandevaluationoftemporalassociationrules.Ineverystep,theauthorcombstheexistingresearch,teststherelativetheoreticalmodels,offersimprovementandprovesit.Becausetheminingofmultivariatetimeseriesisahotissue,theauthordiscussesitinthelast

canpart.Theinnovationsofthedissertationbeincludedasfollows.

(1)Intimeseriesdatapre—processing,theauthorputsforwardsrecognition

onmethodofoutliernoisedatabaseddatavarianceratio.Timeseriesusually

containsnoisedata,whichwillaffecttheminingtemporalassociationrules,SOitshouldbecleanedoutbeforemining.Becausetimeseriescompressionisintoleranttooutliernoisedata,meanwhiletheexistenceofoutlierwillaffectthedivisionoftimeseriesandrepresentationoftimeseriespatterns,SOidentifyinganddeletingtheoutlierintimeserieswillbeoneoftheimportantworksintimeseriesdata

onpre processing.Whether

surroundingdata.The

estimatetheadatumistheoutlier,dependsUSeSitsvibrancywithauthordatavarianceratiooftimeseriesdatatovibrancy,andthenoffersrecognitionofoutliernoisedata.

(2)In

distance

bringstimeseriesandsimilaritymeasure,theauthorcomesupwithEuclidmethodtomeasurethesimilarityoftwodynamictimewarpingmeta—patternsand,andalsoforwarddistancemeanstomeasurethesimilarityoftWOtimeseriespatterns.Inminingtemporalassociationrules,themeta patternmonotonydistancemethod

notsuitableandthemeta-patternvectordistancemethodbothareforgettingfrequentpatternwhenmeasuringthesimilaritybetweentwometapatterns.Aimingthespecialtyoftimeseriespattern,thedissertationoffersweighted

timewarpingdistancemethodofmeta—pattern,andthencomesupwithdynamicmeans,whichCalldistancemeasurethesimilaritybetweentwosequentialpatterns.

(3)In

forwardsthetheacquirementoftemporalassociationrules,theauthorputslayeredmeans.The

rulestimerestrictionoftemporalassociationrulestheand...ofassociationdeterminesdifficulty

andofcanacquiringtemporalassociationrules.Inordertodecreasethedifficulty,wetemporalassociationrulesintodifferentlengthdividethebeforerofSOthenmine,thatiscalledthe

layeredminingoftemporalassociationrules.Becauseofthedifferenceindefiningthefrequentpatterns,themethodisdifferentfromotherminingways.Meanwhilebecausethemethodconsidersthebeforerofdifferentlength,ithastheunique4

ABSTRACr

advantagescomparedwithothermethods

(4)Whenmeasuringthesimilaritybetweentwotimeseries,becausetheexistingmeasureofone—varietytimeseriesignoresthattimeseriesisthefunctionoftime,thedissertationputsforwardthegraphicsimilaritymeasure.Meanwhile,inmeasuringsimilarityofmultivariatetimeseries,consideringthestoringwayofmultivariatetimeseriesiSmatrix,thedissertationofferstwomethodsbasedon

onmatrixnomltomeasurethesimilarityofmultivariatetimeseriesandbased

comprehensiveattributetomeasurethesimilarityofmultivariatetimeseries.Keywords:TimeSeries;Outliernoisedata;Timeseriescompression;Pattern

similarty;Temporalassociationrules;Timeseriessimilarty.5

西南财经大学

学位论文原创性及知识产权声明

本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。因本学位论文引起的法律结果完全由本人承担。

本学位论文成果归西南财经大学所有。

特此声明

学位论文作者签名:2008年4月

1.绪论

1 绪论

关联规则指对象或者事件之间的关联关系【1】,这种关联关系建立在对象或时购买某些商品。这种关联关系具有极强的商业价值,可以辅助人们进行市

时间序列普遍存在于现实生活的各个领域,比如金融、气象、医疗和交列中挖掘到时序关联规则“连续3天的高温之后的2天内有80%的可能性会下雨”,如果这个时序关联规则的有效性得到检验,那么该时序关联规则可以为决策者提供决策支持;在证券市场中,从沪深300指数中挖掘到时序关联规则“指数在连续上涨3天之后的4天内有80%的可能性会下跌2天”,如果这个时序关联规则的有效性得到检验,那么股指期货交易者可利用该时序关联规则进行投资决策。

对时间序列时序关联规则中的“对象或者事件”有不同解释,可以理解为时间序列中的单个数据,也可以理解为时间序列的局部变化趋势。本文认为,由于时间序列都具有随机波动性,如果以单个数据作为时序关联规则中的“对象或者事件”,那么在时间序列中很难挖掘到满足最小支持度和置信度的时序1.1本文研究的背景和意义者事件同时出现的基础之上。关联规则较早地运用于商业,表示顾客是否同场运作、投资决策和商业管理等。时间序列时序关联规则是指时间序列局部变化趋势之间具有时间约束的关联关系,这种局部变化趋势间的关联规则能够为决策者提供决策帮助。时间序列本身具有数据密集性和随机波动性,而且局部变化趋势间的时序关联规则都是隐含在海量数据中,只有通过数据挖掘才能获取。通等【21。在这些时间序列中一般都包含很多有价值的信息,时间序列时序关联规则就是其中重要的一类。例如,在气象预报分析中,从温度变化的时间序

时间序列时序关联规则挖掘研究

关联规则,因而时间序列时序关联规则的“对象或者事件”不是单个数据。时间序列的局部变化趋势勾画出了时间序列的大致轮廓,比如局部增减趋势。人们更加注重时间序列的这些局部变化趋势而非单个数据,因而本文以时间序列的局部变化趋势作为时序关联规则的“对象或者事件”。

时间序列时序关联规则挖掘是一个系统工程,要经历时间序列预处理、时间序列压缩、时间序列模式相似性度量、时间序列时序关联规则获取、解释和评价时序关联规则等步骤;每个挖掘步骤方法的优劣决定挖掘时序关联规则的可靠性,也就制约时序关联规则的有效性。

目前时间序列时序关联规则挖掘各个挖掘步骤方法具有不完善性,主要体现在时间序列预处理、时间序列的压缩、时间序列模式的相似性度量等几个方面:

(1)时间序列预处理存在不适宜性。时间序列预处理主要是清洗时间序列中的噪声数据。由于孤立点噪声数据的存在对时间序列的压缩具有很大的影响,从而影响到时序关联规则的挖掘结果,其他噪声数据的存在不会产生类似的影响,所以噪声数据的清洗主要集中在时间序列孤立点的识别上。目前基于统计学【31、基于小波变换【4】以及基于似然比的识别方法不太适用于时间序列孤立点的识别。

(2)时间序列压缩结果存在不确定性。在经典时间序列时序关联规则挖掘中,以给定长度和滑动步长的滑动窗口把时间序列离散成模式序列,然后获取频繁模式,最后生成强时序关联规则151。滑动窗口的长度和滑动步长起着决定作用,但是这两者都由人为给定,因此就导致时间压缩结果具有很大的不确定性,也就决定着时序关联规则的不一致性。

(3)时间序列模式相似性的度量存在不可测性。时间序列模式相似性的度量是获取模式序列中频繁模式的基础,在时序关联规则获取中显得尤为重要。在已有的模式相似性度量方法中,元模式的增减变化趋势就是用单一的.1、0和1表示【61,忽略了时间序列元模式增减的快慢程度以及增减的时间长短,这就使得元模式相似性的度量方法有一定的不合理性,并且现有时间序列模式度量方法只能度量两个相同长度的序列模式的相似性。

由于时间序列时序关联规则具有很强的实用性,同时挖掘方法具不完善性,所以本文以时间序列时序关联规则挖掘作为研究内容,通过理论推导、2

1.绪论

实证分析,致力于对时间序列时序关联规则挖掘方法的完善和改进,能够挖掘到更加可靠的时间序列时序关联规则,更好的为决策者提供决策支持。1.2本文的研究内容

本文的研究内容是时间序列时序关联规则挖掘,涉及到时间序列预处理、时间序列压缩、时序关联规则获取和时序关联规则评价和解释等四个主要的步骤,如图1.1所示。

数据预处理数据压缩规贝I评价解释

I原始数据译土>中上>甲一干净数据模式序列

图卜1I时序关联规则时间序列时序关联规则挖掘

1、时间序列的预处理

时间序列预处理指清洗时间序列中的噪声数据,目的是为时间序列压缩作准备。由于时间序列中的噪声数据会严重影响时序关联规则挖掘,特别是时间序列孤立点噪声数据的存在会影响时间序列压缩,最终影响时序关联规则的挖掘,所以时序关联规则的挖掘首先要进行时间序列预处理,主要包括清洗时间序列中的孤立点噪声数据。

2、时间序列的压缩

在挖掘时序关联规则前必须压缩时间序列,把时间序列转化成模式序列。时间序列压缩具有双重的目的性,一方面大大缩短时序关联规则挖掘的时间;另一方面把时间序列转化成模式序列,为挖掘时序关联规则作准备。如果不压缩时间序列,则不可能获得时间序列的局部模式,而且会增加挖掘的时间,同时可能获得很多冗余时序关联规则。3

时间序列时序关联规则挖掘研究

3、时序关联规则的获取

时序关联规则获取是指在时间序列的模式序列中获取时序关联规则,主要包括两个步骤:(1)获取模式序列的频繁模式;(2)由频繁模式生成强时序关联规则。在这个过程中,频繁模式的定义、模式相似性的度量、频繁模式获取、强时序关联规则的生成是研究重点。

4、时序关联规则的评价和解释

一般从模式序列中都挖掘到大量时序关联规则,为了从众多的时序关联规则中筛选出有价值的时序关联规则,必须进行时序关联规则的评价。在定义规则的兴趣度,并考虑规则正确度、新颖度的前提下,把有用的时序关联规则从获取的时间序列关联规则中筛选出来。为了使决策者能更好地应用这些筛选后的时序关联规则,必须对这些时序关联规则进行解释。

5、时间序列的相似性度量

因为时间序列的相似性度量是时间序列时序关联规则挖掘的基础,所以本文除了对时间序列时序关联规则挖掘各个步骤所涉及的挖掘方法进行改进和完善,还对如何更好的度量一元时间序列的相似性、多元时间序列相似性进行研究,针对各自的特点提出相应度量方法。时间序列序列相似性是时间序列数据挖掘研究的重要内容之一,分为一元时间序列相似性和多元时间序列的相似性的研究,主要作用在于更好的进行时间序列数据挖掘。

1.3本文的结构

本文研究的内容是如何对时序关联规则挖掘所涉及各步骤挖掘方法进行改进和完善,研究的意义在于从时间序列中获取更多有价值的时序关联规则,从而利用时序关联规则更好地为决策者提供决策支持。本文以时序关联规则挖掘步骤为主线展开论述,每章的结构安排为:首先综述国内外对本步骤所涉及的理论和研究现状,其次分析目前关于这方面的研究所存在的问题,然后提出相应的改进方法,最后利用实证分析检验所提出的方法。本文以理论推导与实证分析相合的方法进行研究,共分八章,具体内容如下:

第1章绪论对论文的选题背景进行介绍,指出研究时序关联规则挖掘的4

1.绪论

背景和意义以及本文的研究内容。

第2章研究时间序列的预处理。时间序列的预处理是时间序列时序关联规则挖掘的第一步,也是相对重要的步骤之一,所涉及理论是怎样去除时间序列中的噪声数据。本章首先对时间序列的噪声数据进行分类,然后综述已有时间序列预处理的方法,并且分析这些方法所存在的优缺点,最后提出基于数据相对变化率的时间序列孤立点识别方法。

第3章研究时间序列的压缩。时间序列压缩是挖掘时间序列时序关联规的第二步。本章首先分析时序关联规则挖掘过程中数据压缩的必要性、压缩的目的和意义,其次综述已有时间序列压缩方法和分析这些方法存在的优缺点,然后提出评价时间序列压缩方法的评价体系,对现有压缩方法进行比较分析,并选择有利于时序关联规则挖掘的时间序列压缩方法,进而对所选择的压缩方法提出相应的改进措施。

第4章研究时间序列模式的相似性度量。时间序列模式的相似性度量是模式序列频繁模式获取的基础。只有很好地度量模式间的相似性,才能更好地完成模式序列中频繁模式获取和强时序关联规则的生成。本章主要研究时间序列模式的相似性,在定义元模式相似性的基础之上,再定义序列模式的相似性,把度量不同维度的两个点间距离的方法应用到序列模式相似性的度量上,从而提出序列模式的动态时间弯曲距离法。

第5章研究时间序列时序关联规则的获取。本章的研究包括时间序列时序关联规则挖掘的第三步时序关联规则的获取和第四步时序关联规则的评价与解释两个步骤。研究内容主要有三个方面:第一个方面是频繁模式的定义和获取方法的研究;第二个方面是如何由频繁模式生成强时序关联规则的研究;第三个方面是怎样对挖掘到的时序关联规则作出合理评价与解释的研究。在分析国内外现有方法不足的基础上,本章提出新的方法。

第6章研究时间序列相似性度量。本章是时间序列时序关联规则挖掘研究的扩展,包括两个方面:一方面研究一元时间序列的相似性,在综述国内外该方面研究成果的基础上,针对一元时间序列时序性的特点提出度量时间序列相似性的图形相似法,并论证该方法的优缺点。另一方面研究多元时间序列的相似性。本章研究多元时间序列的相似性及其应用目的在于,一方面起到过渡的作用,有了一元时间序列时序相似性的相关研究,自然会过渡到5

时间序列时序关联规则挖掘研究

多元时间序列相似性的研究;另一方面为以后的研究起到抛砖引玉的作用。这部分的研究先分析度量多元时间序列相似性的必要性,然后阐述其研究的难点,最后提出两种度量时间序列相似性的方法:基于矩阵范数和基于综合属性法分析的时间序列相似性的度量方法。

第7章时间序列时序关联规则挖掘平台。时间序列时序关联规则挖掘平台以时间序列时序关联规则挖掘过程为主线,共有六个模块,分别实现数据加载、时间序列的预处理、时间序列压缩、时间序列模式相似性度量、时序关联规则获取、时序关联规则评价和时间序列相似性度量等功能。该挖掘平台一方面对各个步骤所提出的理论进行实证分析,另一方面从时间序列中挖掘出时序关联规则。只要在该挖掘平台输入时间序列及相应的阈值,就能生成强时序关联规则。

第8章是总结和展望。在对全文的研究进行总结后,归纳出研究中存在的不足,并对未来的研究进行展望。

本文框架结构如图1.2所示:6

1.绪论

论文研究的核心部分

一I一……一论文研究的辅助部分

图1-2本文的框架结构

时间序列时序关联规则挖掘研究

1.4本文的创新点

本文在现有国内外研究的基础上加以创新,主要的创新点归纳如下:

1、在时序关联规则挖掘的时间序列预处理中,提出基于数据相对变化率的孤立点噪声数据识别方法。时间序列一般都含有噪声数据,噪声数据的存在对时序关联规则挖掘产生很大的影响,因此,在挖掘前必须清洗。由于时间序列压缩对一般噪声数据具有一定容忍性而对孤立点噪声数据却没有,同时孤立点噪声数据的存在会影响时间序列的分割和时间序列模式表示,所以识别和删除时间序列中的孤立点成为时间序列预处理的重要工作之一。本文综述时间序列孤立点识别方法,并讨论这些方法存在的缺点,最后抓住时间序列孤立点相对相邻数据具有很强跳跃性的特点提出数据相对变化率的孤立点识别方法。

2、在时间序列模式相似性度量中,一方面提出度量两个时间序列元模式相似性的加权距离法,另一方面提出度量两个时间序列序列模式的动态时间弯曲距离法。在时序关联规则的挖掘中,因为模式的频繁性是由与之相似模式的数量决定,所以模式相似性的度量也就显得尤为重要。在时序关联规则的挖掘中,元模式单调距离法对元模式单调性的表示过于单一、元模式向量距离法度量并不满足三角不等式公理,.因而这两个方法对元模式相似性的度量都存在一定缺陷,这就决定这两个相似性度量方法都不适合频繁模式的获取。因此,本文针对时间序列模式的特点提出元模式的加权距离,并把时间序列的动态时间弯曲距离方法运用到可以度量任意两个长度序列模式的相似性,从而提出度量两个时间序列序列模式的动态时间弯曲距离法。

3、在时间序列时序关联规则的获取中,提出分层时序关联规则获取方法。时序关联规则的时间约束、关联规则前、后件的长度决定时序关联规则的获取。为了各种长度前件的时序关联规则,把模式序列分成不同长度的子模式,由此提出分层时序关联规则的获取方法。由于频繁模式在一般时序关联规则和时间序列时序关联规则的界定上存在差异,这种方法有别于一般的获取方法;但也由于这种方法考虑到时序关联规则的各种长度“前件”,所以具有其他时序关联规则获取方法所不具有的优点。8

1.绪论

4、作为时间序列时序关联规则挖掘的扩展,本文提出一元时间序列图形相似性度量方法,以及基于矩阵范数的多元时间序列相似性度量方法和基于综合属性的多元时间序列相似性度量方法。时间序列是以时间为变量的函数,因此用时间序列图形的相似性度量相应时间序列间的相似性。对于多元时间序列相似性,从收集的文献看,国内外学者也提出一些度量方法,比较重要的方法是用多元时间序列矩阵的相似性度量相应多元时间序列的相似性。这种方法只从时间序列矩阵的内部因素进行度量,而没有考虑时间序列矩阵的外部结构。本文把时间序列矩阵的外部结构与内部因素两个方面结合起来,从而提出基于矩阵范数的多元时间序列的相似性度量方法。另外利用主成分分析和粗糙集理论把多元时间序列转化成只有一个综合属性,即化“多元”为“一元”,最后用一元时间序列相似性度量方法度量相应多元时间序列的相似性,基于此本文提出基于综合属性的多元时间序列相似性的度量方法。

此外,为了更好的实证本文所提出的挖掘方法和挖掘时间时序关联规则,本文用JAVA语言开发了时间序列时序关联规则挖掘平台。9

时间序列时序关联规则挖掘研究

2.时间序列的预处理

时间序列一般都含有噪声数据,噪声数据的存在对时序关联规则挖掘产生很大的影响,因此,在挖掘前必须清洗。由于时间序列压缩对一般噪声数据具有一定容忍性而对孤立点噪声数据却没有容忍性,同时孤立点的存在会影响时间序列的分割和时间序列模式表示,所以识别和删除时间序列中的孤立点成为时间序列预处理的重要工作之一。本章把时间序列数据的跳跃程度作为判断数据是否是孤立点数据的标准进而提出数据相对变化率的识别方法。

2.1时间序列噪声数据及其分类

时间序列很容易受到噪声数据的侵扰。这些噪声数据的存在使时间序列关联规则挖掘可能陷入混乱,导致不可靠的输出结果。时间序列时序关联规则挖掘的目的是发现隐含在时间序列中的时序关联规则,噪声数据的存在一方面会降低规则的显著性,另一方面还有可能提供一些“假规贝州¨。因而,在挖掘时间序列之前,有必要对时间序列进行预处理,尽可能地清洗噪声数据。

噪声数据一般是指在测量时产生的随机错误或者偏差。有很多因素都可能引起噪声数据的出现,其中主要原因有:在数据收集时,本身就难以收集到十分精确的数据;收集数据的设备出现故障;在数据输入时出现错误;存储介质出现损坏等。引起时间序列具有噪声数据的起因各异,但是时间序列噪声数据大致有两类:第一类是掺杂在时间序列中异于原始数据的异类数据,比如收集时间序列的计算机出现故障,致使在时间序列中夹杂着与原始数据不同的数据;第二类是偏离序列期望值较大的数据,例如环境污染使得某一天的平均温度突然变化很大。在实际的时间序列中,很少出现异类噪声数据,10

本文来源:https://www.bwwdw.com/article/yyh1.html

Top