符号化近似SAX在时序数据挖掘中的应用研究
更新时间:2023-06-10 13:59:01 阅读量: 实用文档 文档下载
- 符号检验正态近似推荐度:
- 相关推荐
聚类是数据挖掘研究中最常见的一种方法,可以作为规则发现、异常发现等其它数据挖掘操作的基础,一直以来都是数据挖掘的研究热点之一.股票数据是一种典型的时间序列数据,利用股票数据进行时间序列数据挖掘的研究既有一定的实际应用价值,也是国内外的热点问题之一.文章首次将一种新型符号化方法SAX[1]应用到标准普尔500指数的股票数据的聚类研究中,使用传统的欧氏距离和动态时间弯
维普资讯
符号化近似 S AX在时序数据挖掘中的应用研究刘懿鲍德沛杨泽红赵雁南贾培发王家钦
(清华大学计算机科学与技术系,京 10 8 )北 004摘要聚类是数据挖掘研究中最常见的一种方法,以作为规则发现、常发现等其它数据挖掘操作的基础,直以可异一
来都是数据挖掘的研究热点之一股票数据是一种典型的时间序列数据,用股票数据进行时间序列数据挖掘的研究既利
有一定的实际应用价值 .是国内外的热点问题之一。文章首次将一种新型符号化方法 S X用到标准普尔 5 0指数也 At 1应 0的股票数据的聚类研究中 .用传统的欧氏距离和动态时间弯曲两种时间序列相似性度量方法进行实验。实验结果表明使 将 S X应用到股票数据聚类操作 .以得到更好的趋势聚类效果和更高的效率。 A可关键词符号化近似时间序列聚类数据挖掘
文章编号 1 0— 3 1 ( 0 6 2— 1 1 0 文献标识码 A 0 2 8 3 - 2 0 )7 0 9— 3 中图分类号 9 . I 1 4
Ap l a i n Re e r h o w y b l p o i to eh d— AX p i to s a c f a Ne S m o i Ap r x ma i n M t o - c c S i m e S re i i g n Ti e is M n nLI Yi BAO— e YANG e h n ZHAO n n n J Pe- a W ANG i- i U De p i Z-og Ya - a L if Ja qn
( o ue ce c n eh o g e at e tT ig u nvr t, e ig 1 0 8 ) C mp t S i e a d T cn l y D pr n, s h a U i s y B in 0 4 r n o m n ei j 0Ab t a t C u trn i n o t e sr c: l se g s i o e f h mo t o s c mmo d t mi ig n aa n n meh d, en a o t p c n t o r h a a t o s b i g h t o i i i s wn i t s n g e p o ao y to, n as u r u i e n mo e c mp e lo t ms s c s ue d s o e n a n r l d s o e . a
x lr tr o l a d l a s b o t i r o lx a g r h u h a r l ic v r a d b oma ic v r As o n i y y t p c l t e e aa,tc a a h s b e i ey u e n d t n n e e r h I t i p p r a n w s mb l t o - y ia i me s r s d t so k d t a e n w d l s d i a a mi i g r s a c . h s a e, e y oi me h d i n c S AX川 i s d i so k d t l se n a ay i. p l t e e meh d O so k a a s u e n tc aa c u t r g n lssWe a p y h n w i t o f tc d t whc i b an d r m t e ih s o t i e f o h Sa d r& P o 0 i d xMo e v r we s t smi rt me s r meh d n l d n Eu l e n n Dy a c i tn a d o r 5 0 n e . ro e . u e wo i li y a au e t o i cu i g c i a a d d n mi T me
W apig i o r e p r n sT e e p r n s r s l H W t a l s rn a b t r fc s n h w oe te d n t e r n n u x e me t. h x e me t e ut O S h t u ti g c n et o u o t e h l rn a d h i i S c e ee c e c c n b mp o e i h ep o A i f i n y a e i r v d w t t e h l f S X. h
Ke w r s y b l p rx ai ( A, m e e,ls r g d t m nn y o d:S m o c A p o i t n S X) t e s r s c t n, a ii i m o i i ue i a g
1引言 近年来 .着数据日益丰富 .据挖掘开始得到广泛的应随数用简单地说 .据挖掘就是从大量数据中提取或“掘”数挖知识1 2 1。
聚类的效率。 本文第 2给出了新型时间序列符号化方法 S X的概念节 A和相关算法 . 3节给出了实验采用的聚类算法和相似性度量第
证券、行、信等数据密集型行业经过多年运营沉淀了大量银电的数据,掘、挖开发和
利用这些数据可以获得巨大的收益。 证券市场是国家经济的晴雨表 .多方面因素影响整个受证券市场运营系统产生的数据主要分为两大类:票行情数据股
方法, 4节描述了实验数据和实验过程,对实验结果进行第并了分析, 5节是总结和进一步的工作。第
2符号化方法 (A S X)时间序列符号化表示是近几年提出的一种将时间序列数据离散化的方法 .其具有离散化、实数表示的特点而得因非
与客户交易数据票行情数据由交易产生,括开盘价、股包收盘价及交易量等信息它们构成了反映国民经济发展的最真实庞大的数据集中股票价格的走势是各类研究人员关注的重点其之一 .股票价格随时间变化的挖掘有助于揭示股票市场甚至对社会经济发展中某些方面的问题。典型的应用包括:发现在某段时间范围内有相似变化趋势的股票:定一个特定的变化规给律.能从一段长时间的股票价格序列中发现该规律发生的时间
到越来越多的关注。基本思想是将数值形式表达的时间序列其依据某种变化规则转换成由离散的符号表示的符号序列Em o a m n博士在 2 0 0 3年提出了一种新型符号化表示方法 S X A
(y b l p m m t n对时间序列进行符号化近似表示。算 Sm ocA p i ai ) o法分三步实现【 , I:
段:发现股票价格序列中频繁发生的规律或者异常情况等等。在本文中将连续一段时期的股票每日开盘或闭盘价格序列称为股票数据在上述应用分析中可以看到 .对股票数据从趋势上聚类是数据挖掘的一个基础的应用从以往研究成果发现直接对股票数据聚类容易受到股票数据小幅或者短时波动的影响 .
( )原时间序列正规化。即将序列变换为均值为 0标准 1将,方差为 1记为 T t一,。,= t (采用分段集成近似方法 ( A Pe e i A ge a 2) P A. i w s gr gt c e e A p i ai )标准化后的序列£ - t降维。 p mx t n对 m o -,即将长度为 n的原时间序列用一个,(
< n维空间的向量表示 v,< ) v _} -一,
以至难以发现整体趋势一致的数据本文将一种新型的时间序列符号化方法 S X用于股票数据的聚类 .种符号化的 A c J应这 方法不仅可以弱化时序数据局部性波动的影响 .而且能够提高
其中
凡
∑。 ,告( 1 l=卜 )+
( ) t,,离散化,现将数值序列转化为符号表示。 3对 l… 实计算机 l与应用 2 0 .7 1 1丁程 0 62 9
正在阅读:
小学传染病防控管理制度08-24
脱下尊严的外壳高二作文07-18
《政治学导论》笔记第四版吐血整理版~!03-30
管理学考研重点04-28
校园安全教育主题班会教案设计11-29
企业文化语录(精选五篇)08-23
2011年高考压轴题跟踪演练数学系列(全6套)【成都七中特别奉献,独04-11
秋天的树散文03-21
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 符号化
- 数据挖掘
- 时序
- 近似
- 应用
- 研究
- SAX
- 校园安全环境监控物联网解决方案
- 厦门大学 实验八 集成运算放大器的应用-运算器实验报告
- 团组织生活主持稿
- 信息系统项目管理师考前模拟试题及参考答案十四
- 从英语发展史的角度看英语名词的发展
- (宝中内部资料)高考理综化学知识点归纳整理
- 微型计算机与原理实验四 字符及字符串的输入和输出
- 2013年PMC工作总结及2014年工作计划
- 2014国家公务员政治常识习题精解(123)
- 扭摆法测物体的转动惯量(实验报告评分标准)
- DCS中的备妥信号是什么意思
- 农村办厂加工创业项目.doc
- 自适应前照明系统
- 内蒙古大学满洲里学院法律人才特色培养模式研究报告
- 2015年安徽省中考语文试卷
- 民营企业香港上市模式比较
- 慢性病防治试题(附答案)
- 配电变压器接地电阻的测量
- 和党员谈话思想汇报
- 公共部门人力资源管理的发展趋势