第五章 时间序列的模型识别

更新时间:2023-12-04 08:31:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第五章 时间序列的模型识别

前面四章我们讨论了时间序列的平稳性问题、可逆性问题,关于线性平稳时间序列模型,引入了自相关系数和偏自相关系数,由此得到ARMA(p, q)统计特性。从本章开始,我们将运用数据开始进行时间序列的建模工作,其工作流程如下:

1. 模型识别

用相关图和偏相关图识别模型

形式(确定参数 p, q) 2. 参数估计 对初步选取的模型进行参数估计

3. 诊断与检验

包括参数的显著性检验和

残差的随机性检验

不可取 模型是否可取 可取 停止

图5.1 建立时间序列模型流程图

在ARMA(p,q)的建模过程中,对于阶数(p,q)的确定,是建模中比较重要的步骤,也是比较困难的。需要说明的是,模型的识别和估计过程必然会交叉,所以,我们可以先估计一个比我们希望找到的阶数更高的模型,然后决定哪些方面可能被简化。在这里我们使用估计过程去完成一部分模型识别,但是这样得到的模型识别必然是不精确的,而且在模型识别阶段对于有关问题没有精确的公式可以利用,初步识别可以我们提供有关模型类型的试探性的考虑。

对于线性平稳时间序列模型来说,模型的识别问题就是确定ARMA(p,q)过程的阶数,从而判定模型的具体类别,为我们下一步进行模型的参数估计做准备。所采用的基本方法主要是依据样本的自相关系数(ACF)和偏自相关系数(PACF)初步判定其阶数,如果利用这种方法无法明确判定模型的类别,就需要借助诸如AIC、BIC 等信息准则。我们分别给出几种定阶方法,它们分别是(1)利用时间序列的相关特性,这是识别模型的基本理论依据。如果样本的自相关系数(ACF)在滞后q+1 阶时突然截断,即在q处截尾,那么我们可以判定该序列为MA(q)序列。同样的道理,如果样本的偏自相关系数(PACF)在p处截尾,那么我们可以判定该序列为AR(p)序列。如果ACF和PACF 都不截尾,只是按指数衰减为零,则应判定该序列为ARMA(p,q)序列,此时阶次尚需作进一步的判断;(2)利用数理统计方法检验高阶模型新增加的参数是否近似为零,根据模型参数的置信区间是否含零来确定模型阶次,检验模型残差的相关特性等;(3)利用信息准则,确定一个与模型阶数有关

1

的准则函数,既考虑模型对原始观测值的接近程度,又考虑模型中所含待定参数的个数,最终选取使该函数达到最小值的阶数,常用的该类准则有AIC、BIC、FPE等。实际应用中,往往是几种方法交叉使用,然后选择最为合适的阶数(p,q)作为待建模型的阶数。

§5.1 自相关和偏自相关系数法

在平稳时间序列分析中,最关键的过程就是利用数据去识别和建模,根据第三章讨论的内容,一个比较直观的方法,就是通过观察自相关系数(ACF)和偏自相关系数(PACF)可以对拟合模型有一个初步的识别,这是因为从理论上说,平稳AR、MA和ARMA模型的ACF和PACF有如下特性:

AR(p) MA(q) ARMA(p,q) 模型(序列)

自相关系数(ACF) 拖尾 q阶截尾 拖尾 偏自相关系数(PACF) p阶截尾 拖尾 拖尾 但是,在实际中ACF和PACF是未知的,对于给定的时间序列观测值x1,x2,,xT,我们

?对其进行估计。然而由于???k?和偏自相关系数??k?和需要使用样本的自相关系数??kk??kk????均是随机变量,对于相应的模型不可能具有严格的“截尾性”,只能呈现出在某步之后

??的“截尾性”来判断???和???的??和??围绕零值上、下波动,因此,我们需要借助??kkkkkk?k?和截尾性,进而由此可以给出模型的初步识别。首先,我们需要给出样本的自相关系数???的定义。 偏自相关系数?kk设平稳时间序列?Xt?的一个样本x1,??,xT。则样本自协方差系数定义为

1T?k??k???xj?x??xj?k?x?,1?k?T?1Tj?1 ???k???k,1?k?T?1 (5.1)

1T?k?是?Xt?的自协方差系数??k?的估其中x??xj为样本均值,则样本自协方差系数??Tj?1计。样本自相关系数定义为

?k???k??0,k?T?1 ?是?Xt?的自相关系数??k?的估计。

(5.2)

作为?Xt?的自协方差系数??k?的估计,根据数理统计知识,样本自协方差系数还可以写为

2

1T?k??k???xj?x??xj?k?x?,1?k?T?1

T?kj?1???k???k,1?k?T?1 (5.3)

在上述两种估计中,当样本容量T很大,而k的绝对值较小时,上述两种估计值相差不大,其中由(5.1)定义的第一种估计值的绝对值较小。根据前面章节的讨论,因为AR(p),MA(q)或者ARMA(p,q)模型的自协方差系数??k?都是以负指数阶收敛到零,所以在对平稳时间序列的数据拟合AR(p),MA(q)或者ARMA(p,q)模型时,希望实际计算的样本自

?k?能以很快的速度收敛。因此,我们一般选择由(5.1)定义的第一种估计值作协方差系数??为??k?的点估计。

?k?的值,定义样本偏自相关根据第三章偏自相关系数的计算,利用样本自相关系数???如下: 系数?kk?D??kk?k,k?1,2,?D其中

??,T

(5.4)

??D1?1??1?1?k?1??k?2?1??,Dk1?1??1?1?1??2??k?

?k?1??k?2??k?1??k?2??k?的统计性质,我们将在下一章给予讨论。 关于样本的自相关系数???也满足Bartlett公式,即当样本容量T充分大时, Quenouille证明,?kk???~N?0,1T? ?kk这样根据正态分布的性质,我们有

(5.5)

1???(5.6) P?????68.3%kkT?? 2???(5.7) P?????95.5%kkT??

这样,关于偏自相关系数??kk?的截尾性的判断,转化为利用上述性质(5.6)或者(5.7),

?的截尾性。?p?2,p?2,?p?M,p?M可以判断?具体方法为对于每一个p>0,考查?p?1,p?1,…,kk?? 3

??中落入?kk1??2的比例是否占总数M的68.3%或95.5%。 或?kkTT?都明显地不为零,而当p?p0时,一般地,我们取M?T。如果p?p0之前?kk?p?1,p?1,?p?2,p?2,…,?p?M,p?M中满足不等式

000000???kk1??2 或?kkTT的个数占总数M的68.3%或95.5%,则可以认定??kk?在p0处截尾,由此可以初步判定序列{Xt}为AR(p0)模型。

?k?,由第二章的Bartlett公式,对于q?0,???k?满足 对于样本的自相关系数??q?1??2??k~N?0,?1?2???j?? ??T?j?1???? (5.8)

?k?也满足 进一步地,当样本容量T充分大时,???k~N?0,1T? ?

(5.9)

?q?1,??q?2,…,??q?M中落入类似于(5.6)或者(5.7)式,对于每一个q?0,检查??k??12?k?或者?中的比例是否占总数M的68.3%或95.5%左右。如果在q0之前,

TT000?k都明显不为零,而当q?q0时,??q?1,??q?2,…,??q?M中满足上述不等式的个数达?到比例,则判断??k?在q0处截尾。初步认为序列{Xt}为MA(q0)模型。

?,得到ARMA模型?k?和偏自相关系数?至此,我们可以利用样本的自相关系数??kk阶数的初步判定方法。具体做法如下:

???k?在最初的q阶明显的大于2倍标准差范围,即21(1) 如果样本自相关系数???T,而

??k都落在2倍标准差范围之内,并且由非零样本自相关后几乎95%的样本自相关系数?系数衰减为在零附近小值波动的过程非常突然,这时通常视为自相关系数??k?截尾,既可以初步判定相应的时间序列为MA(q)模型

?如果满足上述性质,则可以初步判定相应的时间序列为(2) 同样,样本偏自相关系数?kk

4

??

AR(p)模型。

?,如果均有超过5%的值落入2倍?k?和样本偏自相关系数?(3) 对于样本自相关系数??kk标准差范围之外,或者由非零样本自相关系数和样本偏自相关系数衰减为在零附近小值

波动的过程非常缓慢,这时都视为不戴尾的,我们将初步判定时间序列为ARMA模型,那么这样的判断往往会失效,因为这时ARMA(p,q)模型的阶数p和q很难确定。 总之,基于样本自相关和偏自相关系数的定阶法只是一种初步定阶方法,可在建模开始时加以粗略地估计。

例5.1绿头苍蝇数据的时间序列。具有均衡性别比例数目固定的成年绿头苍蝇保存在一个盒子中,每天给一定数量的食物,每天对绿头苍蝇的总体计数,共得到T=82个观测值。经过平稳性处理后计算其基于样本自相关和偏自相关系数,见表5.1

表5.1 绿头苍蝇的样本ACF和PACF

样本自相关系数 样本偏自相关系数 ??k 1 2 3 4 5 6 7 8 9 10 ?k ?k 1 2 3 4 5 6 7 8 9 10 ? ?kk0.73 0.49 0.30 0.20 0.12 0.02 -0.01 -0.04 -0.01 -0.03 0.73 -0.09 -0.04 0.04 -0.03 -0.12 0.07 -0.05 0.07 -0.08

图5.2绿头苍蝇的样本ACF和PACF

?k}呈拖尾状,而从10个偏自相关系数的绝对值来由表5.1和图5.2知,样本自相关函数{? 5

?显著地异于零之外,其余9个中绝对值不大于1?看,除?11T1?0.11的有8个,828?0.89?68.3%,故该时间序列初步判定为AR(1)模型。 9例5.2某时间序列数据(T=273)的样本自相关系数和偏自相关系数计算数据如下:

表5.2 某时间序列数据的样本自/偏自相关系数

样本自相关系数 样本偏自相关系数 k 1 2 3 4 5 6 7 8 ?k ?k 9 10 11 12 13 14 15 ?k ?k 1 2 3 4 5 6 7 8 ? ?kkk 9 10 11 12 13 14 15 ? ?kk0.82 0.45 0.047 -0.26 -0.41 -0.36 -0.15 0.16 0.46 0.64 0.63 0.45 0.16 -0.11 -0.30 0.82 -0.68 -0.12 0.06 -0.02 0.18 0.20 0.04 0.19 0.01 -0.01 -0.03 0.02 0.05 -0.06 ?k}呈拖尾状,而从15个偏自相关系数的绝对值来看,除??11,由上表知,样本自相关函数{??显著地异于零之外,其余13个中绝对值不大于1??22T1?0.0605的有9个,2739?0.692?68.3%,故该时间序列初步判定为AR(2)模型。 13例5.3 某车站1993-1997年个月的列车运行数量数据共60个,见表5.3,试对该序列给出初步的模型识别。

表5.3 某车站1993-1997年个月的列车运行数量数据(单位:千列·千米) k 1 2 3 4 5 6 7 8 9 10 观测值 k 11 12 13 14 15 16 17 18 19 20 观测值 k 21 22 23 24 25 26 27 28 29 30 观测值 k 31 32 33 34 35 36 37 38 39 40 观测值 k 41 42 43 44 45 46 47 48 49 50 观测值 k 51 52 53 54 55 56 57 58 59 60 观测值 1196.8 1181.3 1222.6 1229.3 1221.5 1148.4 1250.2 1174.4 1234.5 1209.7 1206.5 1204.0 1234.1 1146.0 1304.9 1221.9 1244.1 1194.4 1281.5 1277.3 1238.9 1267.5 1200.9 1245.5 1249.9 1220.1 1267.4 1182.3 1221.7 1178.1 1261.6 1274.5 1196.4 1222.6 1174.7 1212.6 1215.0 1191.0 1179.0 1224.0 1183.0 1228.0 1274.0 1218.0 1263.0 1205.0 1210.0 1243.0 1266.0 1200.0 1306.0 1209.0 1248.0 1208.0 1231.0 1244.0 1296.0 1221.0 1287.0 1191.0 图5.3,5.4分别为原始数据和平稳化以后(第8章将给出具体平稳化方法)数据的散点图。

6

图5.3 列车运行数量数据 图5.4 平稳化列车运行数量数据

经过计算,其前20个样本自相关系数和偏自相关系数如下 表5.4 平稳化列车运行数量数据样本自/偏自相关系数 样本自相关系数 样本偏自相关系数 k 1 2 3 4 5 6 7 8 9 10 ?k ?k 11 12 13 14 15 16 17 18 19 20 ?k ?k 1 2 3 4 5 6 7 8 9 10 ? ?kkk 11 12 13 14 15 16 17 18 19 20 ? ?kk-0.685 0.341 -0.193 0.042 -0.068 0.199 -0.221 0.185 -0.130 0.037 -0.036 0.156 -0.165 0.038 0.001 -0.027 0.143 -0.130 0.004 0.021 -0.685 -0.243 -0.139 -0.208 -0.313 0.046 -0.030 -0.037 -0.002 -0.042 -0.130 0.139 0.136 -0.184 -0.120 -0.012 0.196 0.025 -0.143 -0.073 ?呈拖尾状,而从20个自相关系数的绝对值来看,样本自相由上表知,样本自相关函数?kk???k?在最初的2阶明显的大于2倍标准差范围,即(-0.26, 0.26),而后95%以上的关系数???k都落在(-0.26, 0.26)内,并且由非零样本自相关系数衰减为在零附近小样本自相关系数?值波动的过程非常突然,这时通常视为自相关系数??k?截尾,故该时间序列初步判定为MA(2)或MA(3)模型。

§5.2 F检验法

利用F分布进行假设检验是实践中经常使用的统计检验方法,在回归分析中,往往用F检验来考察两个回归模型是否有显著差异,因此常被用来判定ARMA模型的阶数。考虑如

7

下线性回归模型

y??1X1??2X2????nXn?? (5.10)

Y?(y1,y2,?,yN)T为N个独立的随机观察值,Xi?(Xi1,Xi2,?,XiN)T,i?1,2,?,r为

?是模型(5.7)中参数r个回归因子,??(?1,?2,?,?N)T为模型残差。设???(?1,?2,?,?r)T的最小二乘估计,为了检验其中后面s个元素对因变量的影响是否显

著,设去掉此s个因素的线性回归模型为

'y??1'X1??2X2????r'?sXr?s??' (5.11)

?。因此,检验模型(5.10)与(5.11)是否有其中模型(5.11)的参数?的最小二乘估计为?''显著差异等价于检验原假设,即

H0:?r?s?1??r?s?2????r?0 (5.12)

是否成立。为此,考虑上述两个模型的残差平方和Q0与Q1,于是有

?1X1t???2X2t?????rXrt) (5.13) Q0??(yt??

t?1N2?X1t???X2t?????Q1??(yt??t?1N'1'2'r?s2Xr?s,t) (5.14)

Q0~?2?2(N?r),Q0与Q1?Q0相互独立,借助回归分析中残差平方和的分布结论:

22且当原假设H0为真时,Q1?Q0~??(s),因此有:

Q1?Q0Q0/~F(s,N?r) (5.15) sN?r据此构造统计量

F?Q1?Q0Q0 (5.16) /sN?r对于预先给定的显著性水平?,由附录F分布表查出满足

P(F?F?)?? (5.17) 若F?F?(s,N?r),则拒绝原假设H0,即后面s个因素对因变量的影响是显著的;若

F?F?(s,N?r),则接受原假设H0,即这s个因素对因变量的影响是不显著的,表明模型

(5.11)是合适的。

5.2.1 AR(p)模型定阶的F准则

1967年,瑞典控制论专家K.J.Astr?m教授将F检验准则用于对时间序列模型的定阶。设Xt(1≤t≤N)是零均值平稳序列的一段样本。并用模型AR(p)

8

Xt??1Xt?1??2Xt?2???pXt?p??t (5.18)

进行拟合。根据模型阶数节省原则(parsimony principle),采取由低阶逐步升高的“过拟合”办法。先对观测数据拟合模型AR(p)(p=1,2,…),用递推最小二乘估计其参数?j(1?j?n)并分别计算对应模型的残差平方和。根据适用的模型应具有较小的残差平方和的特点,用F准则判定模型的阶数改变后相应的残差平方和变化是否显著。

检验假设?p?0即表示模型AR(p-1)是合适的。由于模型AR(p)残差平方和为

Q0??(Xt??1Xt?1??2Xt?2?t?p?1N??pXt?p) (5.19)

2而模型AR(p-1)的残差平方和为

Q1??(Xt??1Xt?1??2Xt?2?t?p?1N??p?1Xt?p?1)2 (5.20)

统计量F服从自由度为1和N?p的F分布。即

F?Q1?Q0Q0/~F(1,N?p) (5.21) 1N?pQ1?Q0Q0/。若1N?p对照式(5.16),这里n=p是模型阶数总数,s=1是被检验的阶数差数。对给定的显著性??0.05或0.01,查附录F分布表得F?(1,N?p),并计算F?F?F?就拒绝假设H0,即AR(p-1)是不适合模型;若F?F?,则接受H0,即AR(p-1)是适

合模型。

例5.4

根据某实测数据序列拟合的时间序列模型为AR(p),其中N=80。当阶数p=0,

1,2,3时,参数估计及F检验结果分别如表5.5、表5.6所示

表5.5 AR(p)模型的参数估计结果

参数 AR(p)模型 AR(0) - - - AR(1) 0.8223 - - AR(2) 1.3543 0.0643 - AR(3) 1.4258 0.0774 0.0983 ? ?1? ?2? ?3表5.6 各模型的F检验结果 检验统计量 Q F

AR(p)模型 AR(0) 100316 175.64 AR(1) 31125 55.72 9

AR(2) 18149 3.86 AR(3) 17282 45.66

由表5.5和表5.6可知,当模型阶次从1增加到2时,残差平方和Q值急剧减少。根据F检验定价方法,当??0.05和N=80时,查附录F分布表得F?=3.96。当p=l1时求得F=55.7>F?,这表明F检验显著,表明AR(1)模型是不适用的,应改用AR(2)模型。计算得F=3.86

5.2.2 ARMA(p,q )模型定阶的F准则

仿照AR(p)模型定阶F检验准则,可以将F检验应用于ARMA(p, q)模型的定阶。采用过拟合方法,首先对观测数据用ARMA(p, q)模型进行拟台,再假定?p,?q高阶系数中某些取值为零,用F检验准则来判定阶数降低之后的模型与ARMA(p, q)模型之间是否存在显著性差异。如果差异显著,则说明模型阶数仍存在着升高的可能性;若差异不显著,则说明模型阶数可以降低,低阶模型与高阶模型之间的差异用残差平方和来衡量。

假定原假设为H0:?p?0,?q?0,记Q0为ARMA(p, q)模型的残差平方和,Q1为ARMA(p-1,q-1)模型的残差平方和,则可以计算统计量

F?Q1?Q0Q0/~F(2,N?p?q) (5.22) 2N?p?q对照式(5.16)这里n=p+q是模型阶数的总数,s=2是被检验阶散的差数。如果F?F?,则H0不成立,模型阶数仍有上升的可能;否则H0成立,即ARMA(p-1,q-1)是合适的模型。

§5.3 信息准则法 5.3.1 FPE准则法

前面两节中模型的定阶都采用统计检验手段,在给定显著性水平?下作假设检验,带有一定的人为性和主观性。而FPE、AIC和BIC准则都避免上述的缺陷。1969年,日本统计学家赤池(Akaike)提出了一种识别AR模型阶数的最终预报误差准则(Finial Prediction Error),简称FPE准则。其基本思想是用模型一步预报误差的方差来判定自回归模型的阶数是否适用,一步预报误差的方差愈小,就认为模型拟合愈好。

设随机序列{Xt}所适合的真实模型为AR(p),即

Xt??1Xt?1??2Xt?2?一步预报值,则有

??pXt?p??t

22?(1?i?p) 。用X?(1)表示t时刻的其中E(?t)?0,E(?t)??。设?i的估计值为?ti?X???X??(1) X??t1t?12t?2

10

??X (5.23) ?p?tp

可以证明一步预报误差的方差为

?(1)]2?(1?p)?2 E[Xt?1?Xtn (5.24)

可以证明,当样本总量n充分大时有

?2]?(1? E[??2/(1?上式表明?pn)是?2pn)? (5.25)

2的无偏估计。在式(5.21)中用无偏估计来代替?2便可得到

2?(1)]2?(1?p)(1?p)?1?? E[Xt?1?X (5.26) tnn因而将FPE准则定义为

FPEn?pn?p???2n?pn?pp (5.27)

其中可以看出,系数随着p的增大而增大,而当阶数由低阶至高阶增加时,AR(p)

?2开始是随着p的增大而减小,但当p超过序列Xt的真正模型阶数p0之模型残差方差??2就不会再减少了,这时后,?n?pn?p将起主导作用。最终,使FPEp取最小值的那个p就

可以判定为模型的最佳阶数。

根据经验,当样本点数n=100~200时取预先设定的样本上限L?时,取L?n3~n22nln2n;当n=50~100

如果FPEp的数值从p=1就开始上升,则可以判定模型阶数p=1。若FPEp的值随p增加而一直下降,则很可能是由于实际数据序列不宜采用AR序列来描述。如果在某一p的

FPEp值下降很快,以后又有缓慢地下降,则可以将这个p值作为模型的阶。如果随p的增

加FPEp的值上、下剧烈跳动,取不出最小值,这很可能是由于样本数据长度n太小引起的,可增大样本长度后再进行定阶。

例5.5 表所示:

表5.4 拟合各阶AR(p)模型的??p和FPEp

p 0 1 2 3 4

2??p 2根据某实测数据序列拟合的AR(p)(p=1,2,…,10)模型的??p和FPE2p结果如下

FPEp 1.7203 0.5097 0.4790 0.4728 0.4708 11

1.7203 0.5202 0.4989 0.5027 0.5109

5 6 7 8 9 10 20.4705 0.4705 0.4679 0.4664 0.4664 0.4453 0.5211 0.5318 0.5399 0.5493 0.5607 0.5465 由表中可以看出,??p随着p的增加持续下降,但是FPEp在p=2时取得最小值,这提示着模型取为AR(2)较合适。

5.3.2 AIC准则法

AIC准则(An information criterion)是由日本统计学家赤池弘次(Akaika)在1973年提出的。该准则既考虑拟合模型对数据的接近程度,也考虑模型中所含待定参数的个数,适用于ARMA(包括AR和MA)模型的检验,下面我们对AIC准则理论给出一般性的介绍。

设n维随机向量X的概率密度属于函数族{f(?;?),???},f(?;?)与f(?;?)之间的Kullback-Leibler指标定义为

d(??)??(??)??(??) (5.28)

其中

?(??)?E?(?2lnf(X;?))???2ln(f(X;?))f(X;?)dX (5.29)

Rn是f(?;?)相对于f(?;?)的Kullback-Leibler指标,根据Jensen不等式有:

f(X;?)f(X;?)f(X;?)f(X;?)d(??)???2ln(Rn)f(X;?)dX

??2ln?(Rn)f(X;?)dX

??2ln?f(X;?)dX

Rn= 0 (5.30)

其中的等号当且仅当f(X;?)=f(X;?)时成立。

假设所有观测X1,X2,?,Xn来自一参数向量为??(?,?)的ARMA过程,真实的阶

?,??2)为?基于X1,X2,?,Xn的极大似然估计,Y1,Y2,?Yn为该过数为(p,q),令???(?2程的样本实现,则

?,??,??)?n (5.31) ?2)??2lnLX(??2)????2SY(??2lnLY(?

12

其中:

L(?,?,?)?(2????ns(??,??) ?2?1212)r0?rn?1nexp{?12?2n?j?1?)2(Xj?Xjrj?1}

s(??,??)??(Xj?1nj?)2/r ?Xjj?1?)2/?2 rn?E(Xn?1?Xn?1这样,

E?(?(???))?E?,?2?,??2)) (?2lnLY(??)??SY(????n (5.32) 22?,????????E?,???2))?E2(?2lnLX(?,?在大样本逼近的情形下,

?)?2(p?q?1)n?SY(??? (5.30) E2?2?,????n?p?q?2????,??2)?2(p?q?1)n/(n?p?q?2)是Kullback-Leibler指标E?(?(???))从而,?2lnLX(?的渐进无偏估计。前面的推导是建立在真实阶数为(p,q)的基础上的,因而可以选择能够极

?)函数的(p,q),或者极小化等价AIC(??)统计量的(p,q): 小化如下AICC(? AICC(?):??2lnLX(?,SX(?)/n)?2(p?q?1)n/(n?p?q?2) (5.31) AIC(?):??2lnLX(?,SX(?)/n)?2(p?q?1) (5.32)

?)和AIC(??)也可以定义为以?2的估计值代替公式中的S(?)/n的形式,因为当AICC(?X设定?2?)和AIC(??)同时极小化。 ?SX(?)/n时,AICC(?对于自回归模型来说,AIC存在着过拟合p的倾向,惩罚因子但AICC统计量对2(p?q?1)n/(n?p?q?2)和2(p?q?1)在n??时是渐进等价的,高阶模型会有更极端的惩罚效果,这将抵消AIC的过拟合倾向。

从上述可以看出,AIC准则的一般形式可表为:

AIC=-2ln(模型最大似然度)+2(模型独立参数个数) (5.33)

将其具体运用到AR(p)模型的定阶时,设观测数据序列{Xt}为零均值平稳序列,其中

13

的一组样本数据为x1,x2,?,xT,设定一个拟合模型的最高阶数L,则AR(k)模型AIC定阶步骤如下:

?k(0≤k≤L); (1)计算样本自协方差系数??k(0≤k≤L)和样本自相关系数?(2)利用递推算法计算偏相关函数??kj(1≤j≤k;1≤k≤L); (3)令

????0????kj??j ?2kj?1k (5.34)

其中??k是AR(k)模型残差方差,记

2?k?AIC(k)?ln?22kT (0?k?L) (5.35)

(4)在1≤k≤L范围内,如果当k=p时,AIC(k)取得最小值,则适用的模型为AR(p)。

5.3.3 AIC准则用于ARMA(p,q)模型的定阶

?2,设定根据取得的观测数据样本X1,X2,?,XN,计算出拟合残差方差?2的估计值?拟合模型的最高阶数L,在0≤p≤L,0≤q≤L范围内,计算

?k? AIC(p,q)?ln?22(p?q?1)N (5.36)

如果当p=p0,q=q0时,AIC(p,q)取到最小值,则表明适用的拟合模型为ARMA(p,q)。如果时间序列均值不为零(??0),则均值应作为一个独立参数进行估计,此时有

2(p?q?2)N?k? AIC(p,q)?ln?2 (5.37)

由此可见,AIC准则函数通常由两项构成。第一项体现了模型拟合的好坏,它随阶数的增大而至小;第二项体现了模型参数的多少,它随阶数的增大而变大。取二者的最大值意味着上述两个量的一种平衡。从k=0开始逐新增加模型阶数AIC(k)的值是下降的,因为此时起决定性怍用的是第一项,即模型残差方差。当阶数k达到某一值k0时,AIC(k0)达到最小,然后,随着阶数k继续上升,残差方差下降甚微。起决定性作用的是第二项,从而AIC(k)的值随k而增长。此外,使用AIC准则需要注意以下几个问题:

(1)AIC准则要求预先设定模型阶数的最大范围L。根据经验可知,阶数上限取

14

N,N/10,logN均可。在比较AIC大小的过程中,如果已接近阶数上限仍不能确定AIC

的极小点,则应加大上限,继续进行比较。

(2)AIC准则要求参数由最大似然无法解释,但当序列不服从正态分布时.计算表明该准则对于最小二乘法估计也仍然适用

(3)AIC准则是模型优化的一种宏观度量,但不宜机械地以绝对最小值来选择模型阶数,而是要在所对应的模型进行多次比较后,确定合理的模型阶数以及相应参数。

例5.6

根据某观测数据序列(T=176)拟合出若干个AR(p)模型,其模型参数估计值、

残差方差值以及AIC值如下表所示。

表5.7 某序列模型的AIC定阶结果

参数值 AR(1) AR(2) 1.3306 0.6455 - - - 243.92 975.4 AR(p)模型 AR(3) 1.2897 0.5611 0.0635 - - 242.94 976.7 AR(4) 1.2853 0.5995 0.0248 0.0684 - 241.80 977.9 AR(5) 1.2851 0.5994 0.0231 0.0649 0.0027 241.80 979.9 ??1 ??2 ??3 0.8086 - - - - 418.17 1074 ??4 ??5 ?2 ?AIC 根据模型定阶的AIC准则,由上表中AIC的数值可以看出,最合适上述观测数据序列的模型结构应是二阶自回归模型,即AR(2):

Xt?1.3306Xt?1?0.6455Xt?2??t

5.3.4 BIC准则法

理论上已经证明,AIC方法不能给出相容估计。也即当样本容量T??时,采用AIC方法定出的模型阶数估计值,并不能依概率收敛到真值。对此,Akaike(1976年)和E .J.Haman(1979年)等学者又提出了BIC准则

BIC准则函数的定义如下

??(p)?lo?g BIC2pTlo Tg (5.38)

15

本文来源:https://www.bwwdw.com/article/nhwt.html

Top