符号化近似SAX在时序数据挖掘中的应用研究

更新时间:2023-06-10 13:59:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

聚类是数据挖掘研究中最常见的一种方法,可以作为规则发现、异常发现等其它数据挖掘操作的基础,一直以来都是数据挖掘的研究热点之一.股票数据是一种典型的时间序列数据,利用股票数据进行时间序列数据挖掘的研究既有一定的实际应用价值,也是国内外的热点问题之一.文章首次将一种新型符号化方法SAX[1]应用到标准普尔500指数的股票数据的聚类研究中,使用传统的欧氏距离和动态时间弯

维普资讯

符号化近似 S AX在时序数据挖掘中的应用研究刘懿鲍德沛杨泽红赵雁南贾培发王家钦

(清华大学计算机科学与技术系,京 10 8 )北 004摘要聚类是数据挖掘研究中最常见的一种方法,以作为规则发现、常发现等其它数据挖掘操作的基础,直以可异一

来都是数据挖掘的研究热点之一股票数据是一种典型的时间序列数据,用股票数据进行时间序列数据挖掘的研究既利

有一定的实际应用价值 .是国内外的热点问题之一。文章首次将一种新型符号化方法 S X用到标准普尔 5 0指数也 At 1应 0的股票数据的聚类研究中 .用传统的欧氏距离和动态时间弯曲两种时间序列相似性度量方法进行实验。实验结果表明使 将 S X应用到股票数据聚类操作 .以得到更好的趋势聚类效果和更高的效率。 A可关键词符号化近似时间序列聚类数据挖掘

文章编号 1 0— 3 1 ( 0 6 2— 1 1 0 文献标识码 A 0 2 8 3 - 2 0 )7 0 9— 3 中图分类号 9 . I 1 4

Ap l a i n Re e r h o w y b l p o i to eh d— AX p i to s a c f a Ne S m o i Ap r x ma i n M t o - c c S i m e S re i i g n Ti e is M n nLI Yi BAO— e YANG e h n ZHAO n n n J Pe- a W ANG i- i U De p i Z-og Ya - a L if Ja qn

( o ue ce c n eh o g e at e tT ig u nvr t, e ig 1 0 8 ) C mp t S i e a d T cn l y D pr n, s h a U i s y B in 0 4 r n o m n ei j 0Ab t a t C u trn i n o t e sr c: l se g s i o e f h mo t o s c mmo d t mi ig n aa n n meh d, en a o t p c n t o r h a a t o s b i g h t o i i i s wn i t s n g e p o ao y to, n as u r u i e n mo e c mp e lo t ms s c s ue d s o e n a n r l d s o e . a

x lr tr o l a d l a s b o t i r o lx a g r h u h a r l ic v r a d b oma ic v r As o n i y y t p c l t e e aa,tc a a h s b e i ey u e n d t n n e e r h I t i p p r a n w s mb l t o - y ia i me s r s d t so k d t a e n w d l s d i a a mi i g r s a c . h s a e, e y oi me h d i n c S AX川 i s d i so k d t l se n a ay i. p l t e e meh d O so k a a s u e n tc aa c u t r g n lssWe a p y h n w i t o f tc d t whc i b an d r m t e ih s o t i e f o h Sa d r& P o 0 i d xMo e v r we s t smi rt me s r meh d n l d n Eu l e n n Dy a c i tn a d o r 5 0 n e . ro e . u e wo i li y a au e t o i cu i g c i a a d d n mi T me

W apig i o r e p r n sT e e p r n s r s l H W t a l s rn a b t r fc s n h w oe te d n t e r n n u x e me t. h x e me t e ut O S h t u ti g c n et o u o t e h l rn a d h i i S c e ee c e c c n b mp o e i h ep o A i f i n y a e i r v d w t t e h l f S X. h

Ke w r s y b l p rx ai ( A, m e e,ls r g d t m nn y o d:S m o c A p o i t n S X) t e s r s c t n, a ii i m o i i ue i a g

1引言 近年来 .着数据日益丰富 .据挖掘开始得到广泛的应随数用简单地说 .据挖掘就是从大量数据中提取或“掘”数挖知识1 2 1。

聚类的效率。 本文第 2给出了新型时间序列符号化方法 S X的概念节 A和相关算法 . 3节给出了实验采用的聚类算法和相似性度量第

证券、行、信等数据密集型行业经过多年运营沉淀了大量银电的数据,掘、挖开发和

利用这些数据可以获得巨大的收益。 证券市场是国家经济的晴雨表 .多方面因素影响整个受证券市场运营系统产生的数据主要分为两大类:票行情数据股

方法, 4节描述了实验数据和实验过程,对实验结果进行第并了分析, 5节是总结和进一步的工作。第

2符号化方法 (A S X)时间序列符号化表示是近几年提出的一种将时间序列数据离散化的方法 .其具有离散化、实数表示的特点而得因非

与客户交易数据票行情数据由交易产生,括开盘价、股包收盘价及交易量等信息它们构成了反映国民经济发展的最真实庞大的数据集中股票价格的走势是各类研究人员关注的重点其之一 .股票价格随时间变化的挖掘有助于揭示股票市场甚至对社会经济发展中某些方面的问题。典型的应用包括:发现在某段时间范围内有相似变化趋势的股票:定一个特定的变化规给律.能从一段长时间的股票价格序列中发现该规律发生的时间

到越来越多的关注。基本思想是将数值形式表达的时间序列其依据某种变化规则转换成由离散的符号表示的符号序列Em o a m n博士在 2 0 0 3年提出了一种新型符号化表示方法 S X A

(y b l p m m t n对时间序列进行符号化近似表示。算 Sm ocA p i ai ) o法分三步实现【 , I:

段:发现股票价格序列中频繁发生的规律或者异常情况等等。在本文中将连续一段时期的股票每日开盘或闭盘价格序列称为股票数据在上述应用分析中可以看到 .对股票数据从趋势上聚类是数据挖掘的一个基础的应用从以往研究成果发现直接对股票数据聚类容易受到股票数据小幅或者短时波动的影响 .

( )原时间序列正规化。即将序列变换为均值为 0标准 1将,方差为 1记为 T t一,。,= t (采用分段集成近似方法 ( A Pe e i A ge a 2) P A. i w s gr gt c e e A p i ai )标准化后的序列£ - t降维。 p mx t n对 m o -,即将长度为 n的原时间序列用一个,(

< n维空间的向量表示 v,< ) v _} -一,

以至难以发现整体趋势一致的数据本文将一种新型的时间序列符号化方法 S X用于股票数据的聚类 .种符号化的 A c J应这 方法不仅可以弱化时序数据局部性波动的影响 .而且能够提高

其中

∑。 ,告( 1 l=卜 )+

( ) t,,离散化,现将数值序列转化为符号表示。 3对 l… 实计算机 l与应用 2 0 .7 1 1丁程 0 62 9

本文来源:https://www.bwwdw.com/article/ex51.html

Top