时间序列分析讲义(2)

更新时间:2023-10-22 01:58:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

(3) 最大似然估计法(MLE)

首先大家打开教材第43页看,我们纠正教材中的错误。它说: “对于一组相互独立的随机变量x,(t?1,2,?,T),当得到一个样

t本(x1,x2,?,xT)时,似然函数可表示为

L(?x,x,?,x)?f(x?)f(x?)?f(x?)12T122 T??f(x?)tt?1式中??(?1,?2,?,?k)是一组未知参数”。

我们知道时间序列一般不是独立的,而是相依的离散时间随机过程。因此,得到的样本(x1,x2,?,xT)不可能是相互独立的,似然函数绝不是以上概率密度乘积的形式。所以,教材中这一段是错误的。

似然函数在估计理论中有着根本的重要性的一个原因是因为“似然原理”。这个原理说:已知假定的模型是正确的,数据非得告诉我们的关于参数的全部包含在似然函数中,数据的所有其他方面是不切题的。

实际上,一般的ARMA过程(含AR、MA过程)参数的最大似 然估计计算过程很复杂。至少有三种方法写出精确的似然函数:向后

预报法、递推预报法、状态空间与卡尔曼(Kalman)滤波法。我们讲只对递推预报法最简要介绍,从而为引出模型选择的AIC、BIC信息准则铺平道路。

我们先以最简单的因果的AR(1)过程的MLE为例,说明MLE的主要思想。考虑因果的AR(1)过程,满足模型

X????X?u, u~IIDN(0,?2),

tt01t?1t?0?E(X)。我们以(?,?,?2)为三个未知参且??1。则均值为 ??t111??1数,而???(1??)不作独立的未知参数。模型中心化为

01X????(X??)?u。 t1t?1t设已得到了样本值(x1,x2,?,xT)。则关于参数(?,?,?)的似然函数为

12L(?,?,?2;x,x,?,x)112T?f(xx,?,x;?,?,?2)f(xx,x,?,x;?,?,?2)? T1T?11T?112T?21?f(xx;?,?,?2)f(x;?,?,?2)21111联合概率密度在样本值(x1,x2,?,xT)处的值写为条件概率密度和最后一个无条件概率密度的乘积。由AR(1)模型知当X,?,XX的条件分布为

t1t?1给定时,

XX,?,X~N(???(X??),?2)。 (正态分布) t1t?11t?1再由因果性和传递形式和正态分布性质对均方极限的封闭性,有

?j?2X?????u~N(?,) (正态分布)。 111?j21??j?01所以,似然函数等于

L(?,?,?2;x,x,?,x)112T?T?1??12???exp??x????(x??)??t1t?1??22??2????t?2? ?1??2?1??2??211?exp??(x??)?122??2??????T2?1?22????2???1??exp??S(?,?)?112???2????其中

TS(?,?)?(1??2)(x??)2??x????(x??)2t1t?1111t?2

1?2T2????E(ux,?,x)??u?t1Tt??t?2??t???????(可写为包含向后预报)称为无条件平方和函数,它不含?。

[1] 无条件的(或精确的)最大似然估计。最大化无条件对数似然函数lnL(?,?,?;x,x,?,x)。将?2整体,而不是?看作一个未知

21212T参数,解

?lnLT1??2?4S(?,?)?0 21??2?2?得

21???S(?,?1)。 T再将上式带回到对数似然函数中得到

TT?1?1?lnL(?,?)??(ln(2?)?1)?ln?S(?,?)??ln?1??2?, ?11?2?1?22?T它已经不含?2。然后再相当于最小化“约简的似然函数”(或称“剖面似然函数”)

?1?1?l(?,?)?ln?S(?,?)??ln?1??2? ?11?T?1??T?。最后带入得白噪声方差的最大似然估计 ?,?来求得最大似然估计?1?2?1???S(?,?)。

1T[2] 无条件的(或精确的)最小二乘估计。直接最小化无条件平方

?,?,?和函数S(?,?)来求得估计?然后取白噪声方差的最小二乘估计为

11?)?,?S(?1?2??回归中残差平方和的自由度为残差数减去参数个数。 1?)?,??S(?1T?2[3] 条件的最大似然估计。在给定X的条件下最大化条件的似然

1函数。在以上精确的似然函数中舍去最后的因子无条件概率密度值

f(x;?,?,?2),即得到条件的似然函数 11L(?,?,?2;x,?,xx)12T1?f(xx,?,x;?,?,?2)f(xx,x,?,x;?,?,?2)?T1T?11T?112T?21 2?f(xx;?,?,?)211?(T?1)2?1?2????2???exp??S(?,?)?c12???2??其中

TT22S(?,?)??x????(x??)??u

c1t1t?1tt?2t?2??称为条件平方和函数,它不含?,它比前面无条件平方和函数S(?,?)21少一项(1??2)(x??)2。解

11?lnL(?,?,?2;x,?,xx)12T1??T?1?1S(?,?)c1 224??2?2??0得

12???S(?,?)。

1T?1c再将上式带回到对数条件似然函数中得到

lnL(?,?;x,?,xx)12T1?T?1, T?1?2???ln?S(?,?)??12?T?1c?2它已经不含?2。然后再相当于最小化条件平方和函数S(?,?)来求得

c1?。最后得白噪声方差的条件最大似然估计 ?,?估计?112?)。* ???,??S(?1T?1c [4] 条件的最小二乘估计。直接最小化以上的条件平方和函数

?,?相同。?,??,?所以它们与条件的最大似然估计? S(?,?)来求得估计?11c1但是,取白噪声方差的估计为

?)?,?S(?c1?2??回归中残差平方和的自由度为残差数减去参数个数。 1?)?,??S(?1T?3c

一般ARMA过程MLE和OLS简介。

现在设X为因果且可逆的零均值(或已经零均值化)ARMA(p,q)

?t???p过程(没有常数项????1????)

0?j??j?1?X??X????X?u??u????u, t1t?1pt?pt1t?1qt?qu~WN(0,?2)。

t?(x)?1??1x????pxp?0与?(x)?1??1x????qxq?0的根都在单

位圆|z|?1以外,且没有公共根。我们认为它也包括AR(p)和MA(q)过程为特例。

给定样本Xn?(X,?,X)?。我们求参数向量φ?(?,?,?)?,

1n1pθ?(?,?,?)?和白噪声方差?2的(无条件的)最大似然估计、(无条

1q件的)最小二乘估计。

设??E(XX?)????n?为Xn的自协方差阵,且是非奇?nn?i?j?1?i,j?n异的,其中包含所有未知参数计φ,θ,?2。则Xn的高斯(正态)似然函数为

?1??1??n2?122L(φ,θ,?;X)?(2?)(det?)exp??X?X?。

nn?2nnn?虽然我们只要求u~WN(0,?2)是弱白噪声,X不一定是高斯序列,

t?t?我们仍然称上式为“(拟)高斯似然函数”。最大化此高斯似然函数以

?,??,θ?2,仍然称为“求得参数的估计φ(拟)最大似然估计”。

对一般ARMA过程,协方差阵??E(XX?)????n?的

nn?i?j??1?i,j?n形式极为复杂。至少有三种方法写出精确的似然函数:向后预报法、

递推预报法、状态空间与卡尔曼(Kalman)滤波法。我们讲只对递推预报法最简要介绍。

??0。对j?2,记X?为用X,?,X记X1j1j?1对X做的线性最小均

j方误差预报。(回忆在平稳序列的偏自相关系数的第一种定义中用到过此概念)。且记预报的均方误差为

E(Xj?1??X)2??2r。

j?1j?和r都只含有参数向量φ?(?,?,?)?,θ?(?,?,?)?,而不含有Xj1p1qj白噪声方差?2,它们的具体递推计算公式复杂,此处从略。则高斯似然函数可改写为

L(φ,θ,?2;X)n2?。 ??(X?X)n1jj???n2?122?(2??)(rr?r)exp????201n?1r?2?j?1j?1????lnL(φ,θ,?2;X)n?0得 解

??212??S(φ,θ), ?n其中“加权的平方和函数”为

2?(X?X)njjS(φ,θ)??。

rj?1j?11?S(φ,θ)再带回到对数似然函数中得到 nnnlnL(φ,θ;X)???ln(2?)?1??l(φ,θ),

n22它已经不含?2。然后再相当于最小化“约简的似然函数”(或称“剖面?2把?似然函数”)

?1?1n, l(φ,θ)?ln?S(φ,θ)???lnrj?1?n?nj?1?,以及 ?,θ就得到(无条件的)最大似然估计φ?)。 ?,θ?2?S(φ?

1n1n 如果在样本较大时忽略l(φ,θ)中的?lnr项,相当于直接

nj?1j?1最小化加权的平方和函数

2?(X?X)njjS(φ,θ)??,

rj?1j?1~~就得到(无条件的)最小二乘估计φ,θ。然而取白噪声方差的最小二

乘估计为

~~S(φ,θ)~2??回归中残差平方和的自由度为残差数减去参数个数。

~1~?S(φ,θ)n?p?q

1n注解。 在样本较大时l(φ,θ)中的?lnr项相对于S(φ,θ)项

j?1nj?1小得多,可忽略,模型参数个数p?q相对于样本数n小得多,因此

?2MLE?

~11??~~2S(φ,θ)。 ?S(φ,θ) ? OLS ??n?p?qn注解. 如果以给定的数据的初始值为条件,即以给定

X,?,X(p?0)的值和取up?up?1???u2?q?u1?q?0(q?0)为

1p条件,最小化条件的加权的平方和函数S(φ,θ),则得条件的最小二乘

c估计φ,θ,然后再取白噪声的条件最小二乘估计为

?2?详细过程从略。

1S(φ,θ)。

n?2p?q一般地,对大的样本容量,条件的、无条件的最小二乘估计量充当了最大似然估计量令人满意的近似。然而,模拟仿真证据建议对最大似然估计量的偏爱,对中小样本容量,特别是如果移动平均特征多项式有一个接近可逆域边界的根。

对ARMA过程的参数估计,MLE的求解必OLS的求解所需运算量大得多,尽管MLE的性质最好。在小型的Eviews软件中就只有非线性OLS而没有MLE可用,在大型的SAS软件中默认OLS,有MLE

可供选择。

4. 模型定阶(或称模型选择)

前面利用SACF、SPACF初步识别了一个或几个模型,并进行了参数估计。还需要利用信息准则进行精准定阶或选择。

我们前面讨论的ARMA过程参数估计是在模型阶数p,q已知的前提下进行的,而在实际问题中模型阶数p,q未知的。一般会认为选的p,q值越高,拟合的模型越好,体现在最大化的似然函数值越大,

?2越小。但是越多的参数,一方面会使参数等价于估计的白噪声方差?估计的难度越大;另一方面会使所选择的模型过于依赖特定的样本值,而产生过度拟合的错误,从而预报的未来值很不准确。所以,一个好的拟合模型应该是拟合精度和未知参数个数的综合最优配置。在这方面,日本统计学家赤池弘次(Akaike)提出的AIC信息准则,在模型定阶中起着重要作用,被广泛接受。

---------------------------------------------------------------------------------- 我们简要了解信息准则的导出过程。 (省略不讲了)

设X是一个n维随机向量,它的概率密度函数是概率密度族

?f(?;?):????中的某一个。则f(?;?)与f(?;?)之间的

Kullback-Leibler差异定义为

d(?|?)??(?|?)??(?|?),

其中

?(?|?)?E??2lnf(X;?)???Rn?2ln(f(x;?))f(x;?)dx

?是f(?;?)的相对于f(?;?)的Kullback-Leibler指标,而

?(?|?)?E??2lnf(X;?)???Rn?2ln(f(x;?))f(x;?)dx。

?它们是当真实概率密度是f(x;?)时,随机变量?2lnf(X;?)和

?2lnf(X;?)的数学期望。由于函数 ?(x)??2ln(x) 是向下凸函数,

应用数学期望的Jensen不等式:

E??(Y)????E(Y)?,等号成立当且仅当P?Y?E(Y)??1,

我们有

?f(x;?)?d(?|?)??Rn?2ln??f(x;?)??f(x;?)dx????f(x;?)??2ln?, ??Rnf(x;?)f(x;?)dx??????2ln?Rnf(x;?)dx?0??其中等号成立当且仅当f(x;?)?f(x;?)几乎处处按照概率密度

f(?;?),即

P?)?f(X;?)????f(X;?f(x;?)dx?1。

?x:f(x;?)?f(x;?)?所以,f(?;?)与f(?;?)之间的Kullback-Leibler差异总是非负的,差异为零,当且仅当f(?;?)就是真实概率密度是f(x;?)。

给定具有未知真实参数??(β,?2),β?(φ,θ),的ARMA过程的观察值X,?,X。倘若能计算所有候选模型与真实模型之间的

1nKullback-Leibler差异,则能识别出真实模型。但是这是不可能的(因为含有未知参数),我们估计Kullback-Leibler差异,并且选择估计的差异值最小的模型。假设真实的AR 、MA阶数分别是p,q。设

??(β?,??2)是基于观察值X,?,X的??(β,?2)的(拟)高斯最大似?1n然估计。记

?|?)?E?2lnL(X,?,X;?) ?(???1n|????)的相对于L(X,?,X;?)的是最大化的似然值L(X,?,X;?1n??1n?|?)现在是随机变量,因为依赖于估Kullback-Leibler指标。但是?(??,期望为E[?(??|?)]。可以证明 计量???|?)]E[?(?, 2(p?q?1)n???)??E??2lnL(X1,?,Xn;???n?p?q?2???2(p?q?1)n?即?2lnL(X,?,X;?)?是期望的Kullback-Leibler指1nn?p?q?2?|?)]的近似无偏估计。 标E[?(??定义修正的AIC信息量为

2?)?2(p?q?1), AIC??lnL(X,?,X;?c1nnn?(p?q?2)?)最大化的似其中p, q分别为自回归、移动平均阶数,L(X,?,X;?1n然函数值。如果模型包括常数项?,则p?q被p?q?1代替。我们应

0该选择模型阶数p,q,使得AIC的值最小。

c

------------------------------------------------------------

定义赤池(AIC)信息量为

22?AIC??lnL(X,?,X;?)?(p?q)。 (*1)

1nnn如果模型包括常数项?,则p?q被p?q?1代替。

0回忆前面学习的最大似然估计的过程和约简的似然函数l(φ,θ)。

由于

2?)??ln(2?)?1??l(φ?)?,θ?lnL(X1,?,Xn;?n??1?n1??)???lnr??,θ??ln(2?)?1???ln?S(φnnj?1j?1?????? ?1???)??,θ??ln(2?)?1??ln?S(φ??n???2??ln(2?)?1??ln????????1n?)为白噪?,θ?2?1S(φ当样本数n很大时,可省略?lnr项,其中?nj?1j?1n声方差的最大似然估计。把以上近似式带入到AIC的定义式中,并且忽略常数ln(2?)?1。所以AIC信息量也可近似为

??22?????(p?q)。 (*2) AIC?ln????n如果模型包括常数项?,则p?q被p?q?1代替。自回归部分和移动

0平均部分也可以个别或全部的有缺失项,包含AR(p)和MA(q)过程为特例。

当模型阶数p,q越大时拟合精度越高,体现在AIC中

22?项越小。而2(p?q)是惩罚项,?)项或者ln????lnL(X,?,X;???1nnn??参数越多其值越大,防止过度参数化。我们应该选择模型阶数p,q,使得AIC的值最小。

注解. 用(*1)或(*2)两式定义AIC信息量,是其它教材和软件中采用最多的。例如,Eviews软件采用(*1)式。也有的教材采用

2??2(p?q) ?AIC?nln??????1?2定义AIC信息量,即与(*2)式相差倍。这样数值不稳定,因为?n较小,n较大,这样定义的AIC是绝对值很大的负数。

回忆前面参数的MLE和OLS过程,我们看到在大样本时

?2MLE?~11??~~2S(φ,θ)。 ?S(φ,θ) ? OLS ??n?p?qn例如,在Eviews软件中,使用

~2??(p?q) (*3) AIC?ln?????近似计算AIC信息量。

但是理论上已经证明了AIC定阶并不是弱相合的。也就是说,如果真实模型确为ARMA(p, q)时,当样本数n趋于无穷时,由AIC准则

2?n

?,q?(都是样本的函数,是统计量)并不依概率收敛到真实定的阶数p的阶数p, q, 而是在大样本时有高估模型阶数的倾向。

为了纠正AIC过度拟合的倾向,赤池、施瓦兹等人又提出了贝叶斯信息准则。定义BIC(也称为SBC、SIC、SC)信息量

2lnn?BIC??lnL(X,?,X;?)?(p?q)

1nnn或者

lnn2???BIC?ln????(p?q)。 ??n如果模型包括常数项?,则p?q被p?q?1代替。我们应该选择模型

0阶数p,q,使得BIC的值最小。我们看到与AIC信息量相比,BIC信息

量加大了惩罚项,以抑制过度拟合的倾向。理论上已经证明BIC准则

?,q?,是真实模型阶数p, q 的强相合估计,即对模型阶数的估计量p当T??时

a.e.??p,pa.e.??q。 q但是,BIC准则的缺点是在样本较小时,低估模型的阶数。

注解. 在实际问题中,对大样本情况使用BIC准则较好,在小样本情况使用AIC准则更好。

当然在真实数据的建模中,很少有真实阶数这样的事情。有学者建议,具有位于最小值c?2以内的AIC值的模型都应被看作有竞争力的模型。在有竞争力的模型之中的选择则能够以这类因素,如残差的白化性、模型的简洁性,为基础。

5.诊断与检验

在用AIC、BIC选择了一个或几个模型并估计了模型参数后,下一个步骤是对模型进行诊断式检验。首先是对自回归系数、移动平均系数进行显著性检验,剔除含有不显著系数的模型。然后再对通过系数的显著性检验的模型,在进行整体的拟合优度检验。 (1)参数的显著性检验

关于最大似然估计、(无条件的)最小二乘估计的渐近分布,我们

有以下定理,以进行参数的显著性检验。

补充定理* (从略,不讲了。只讲五种常用模型的特例) 设X为因果且可逆的零均值(或已经零均值化)ARMA(p,q)过程

?t?X??X????X?u??u????ut1t?1pt?pt1t?1qt?q,

。 u~III(0,?2) (加强为独立同分布的白噪声)t?(x)?1??1x????pxp?0与?(x)?1??1x????qxq?0的根都在单位圆|z|?1以外,且没有公共根。β?(φ?,θ?)?为真参数向量,其中

φ?(?,?,?)?,θ?(?,?,?)?。给定样本Xn?(X,?,X)?,

1p1q1n~~~??????β?(φ,θ)、β?(φ?,θ?)?、β?(φ?,θ?)?分别是β?(φ?,θ?)?的最大似然估

计、无条件最小二乘估计、条件最小二乘估计。则有

d~?n(β(或者β,β)?β)?N(0,V(β)),

其中

(i)对混合过程p?1,q?1,

?1??EUUEUV??tttt2?, V(β)???EVV???EVtU?ttt??Vt?分别是Ut?、?其中Ut?(Ut,?,Ut?1?p)?,Vt?(Vt,?,Vt?1?q)?,并且?自回归AR(p),AR(q)过程

?????????(L)U?U?(?U????U)?u,u~III(0,?2);

tt1t?1pt?ptt?(L)V?V??V????V?u,u~III(0,?2)。 tt1t?1qt?qtt (ii)对AR(p)过程(q=0),

V(φ)??2EUU??1??2??1,

ttp其中Ut如上,

???????E(UU?)??E(XX)?? ?ptt?iji?j??1?i,j?pUt?,也就是X的p阶自协方差阵。所以,这个渐近方差与前面是?Yule-Walker矩估计的渐近方差相同。 (iii) 对MA(q)过程(p=0),

?t?*?V(θ)??2EVV??1??2???q?tt??其中Vt如上,

?????1,

*?E(VV?)?E(VV)?q

ij1?i,j?qtt??是以上AR(q)过程V的q阶自协方差阵。

注解. 以上三种情况的渐近协方差阵V(β)中,都不含有白噪声方差?2,它被抵消掉了。

以上定理在五种常用模型中的具体形式。以最大似然估计为例,对(无条件的、条件的)最小二乘估计也成立。

(i) 对零均值因果的AR(1)过程

?t?2X??X?u,u~IID(0,?),|?|?1,

tt?1tt以上定理结论表现为

d???)?N(0,1??2)。 T(??代替未知的真参数?。在实际进行区间估计或假设检验时,用估计值?认为

????122?P?????1.96T1????95%,

???12??2。当 ?从而的95%的置信区间为??1.96T1????0?1.96T?121???2 ?时,在水平??0.05上,拒绝零假设H:??0,而接受双边备择假设

0H:??0。

1(ii) 对零均值因果的AR(2)过程

X??X??X?u,u~IID(0,?2), t1t?12t?2tt?2??1?1,|?2|?1,以上定理结论表现为

?2????????d????1????(1??)??0???1??1212????T??????N??,。 ???????2???0????????(1??)1??2????2??22???1???????1?代替未知的真参数在实际进行区间估计或假设检验时,用估计值????????2?????1???。例如认为 ???2???????12?2??95%, P?????1.96T1??2??11???1.96T从而?的95%的置信区间为?11?12?2。当 1??2?12??2 ?1?0?1.96T1??2时,在水平??0.05上,拒绝零假设H:??0,而接受双边备择假设

01H:??0。 11 (iii)

对零均值可逆的MA(1)过程

X?u??u,u~IID(0,?2),|?|?1, ttt?1t以上定理结论表现为

d???)?N(0,1??2)。 T(? (iv) 对零均值可逆的MA(2)过程

X?u??u??u,u~IID(0,?2),

tt1t?12t?2t

Ljung-Box Q检验(也称为多功能或多用途检验)

?(u?)设我们有残差序列的前K个样本自相关系数?k(k?1,2,?,K)。(假定K充分大使得当j?K时,传递形式

??(L)??u X?u???t?jt?j?(L)tj?0?可以忽略不计)中的权(Green函数)?。定义Ljung-Box Q统计量

jK12?(u?), Q?n(n?2)??kk?1n?k其中n?T?d,而d对ARIMA(p,d,q)过程则为差分阶数,对ARMA(p,q)

?)????过程则为零。当零假设H:?(u01K?)?0为真时,有 (ud22? Q??(K?p?q) (自由度为K?p?q的分布)。

当H为伪时,Q值有偏大的趋势。因此当Q??2(K?p?q)0(?2(K?p?q)分布的上?分位数)时,等价地当

?f(t)dt?? p值?P?2?Q??Q???时,(f(t)为?2(K?p?q)分布的概率密度),在水平?(如??0.05)

?),?,?(u?)不全为零。如果接上拒绝H,而接受备择假设H:?(u?受了H,则认为残差序列u00?t?1?t?T为白噪声,从而模型提取信息充

011K分,适合地拟合了样本数据。如果拒绝了H,则认为残差序列

?u?t?1?t?T还不是白噪声,模型不能适合地拟合样本数据。

注解. 当ARMA过程的自回归或移动平均有缺省项时,Q统计

量的渐近?2(K?p?q)分布中p?q被非零自回归和移动平均系数总数代替。即使模型为?(L)X????(L)u,包含常数项?,自由度仍

t0t0为“K?(非零自回归和移动平均系数总数)”,常数项?和白噪声

0方差都不计在总数内。

四、基于ARMA模型的预测

复习及补充内容:条件分布与条件期望

我们仅以连续型随机变量为例介绍。

设二维连续型随机变量?X,Y?有概率密度f?x,y?。则关于Y的边

?f?x,y?dx。对于使得f(y)?0的固定的y值,缘概率密度为fY(y)????Y称

f?x,y?f?x,y? f(xy)??XYf(y)??f?x,y?dxY??为在Y?y条件下,X的条件概率密度。

若h(x)是实值(Borel可测)函数,使得

????h(x)fXY(xy)dx??,

则称

?h(x)fEh(X)Y?y:??????XY(xy)dx

为在Y?y条件下,随机变量h(X)的条件期望。Eh(X)Y?y依赖于y的取值,记实值函数g(y):?Eh(X)Y?y。则g(Y)?Eh(X)Y是随机

??????变量Y的函数,也是随机变量,称为h(X)在Y下的条件期望。

补充定理(条件期望的性质) 设X,Y,Z都是随机变量,g(x)为实值连续函数,各个期望E(X),E(Y),E(Z)及E?Xg(Y)?都存在。

(1) 当X,Y相互独立时,E(XY)?E(X)。

(相互独立时等于无条件期望)

(2) 全数学期望公式 EE(XY)?E(X)

(条件期望再取期望等于无条件期望)

????(4)E?g(Y)E(XY)??E[Xg(Y)] (可由性质(3)、(2)推出)

(5) E(CY)?C,C为常数。 (6)E(g(Y)Y)?g(Y)。

(等于不取期望的g(Y),而不是E[g(Y)])

(7)线性性质 EaX?bZY?aE(XY)?bE(ZY),a,b为常数。 (8)EX?E(XY)?E?X?g(Y)?。

2(3)EXg(Y)Y?g(Y)E(XY) 。 (将g(Y)提到E(?Y)以外)

?????2??? (当用Y的函数g(Y)预测X时,在所有函数g(Y)中,用函数E(XY)

做预测的均方误差最小。这是做最小均方误差预测的基础)

X在Y下的条件方差定义为随机变量

2????Var(XY):?EX?E(XY)Y????22??E(XY)?2E?XE(XY)Y??E?E(XY)?Y?????。

22?E(X2Y)?2?E(XY)???E(XY)?2?E(X2Y)?E(XY)??

我们进一步推广条件期望的定义。对1?n??,在随机向量或随机序列取值Y1,Y2,?,Yn?y1,y2,?,yn条件下,随机变量X的条件期望

????是y,y,?,y?1gy,y,?,y:?E?XY,Y,?,Y?y,y,?,y12n12n12n???????2的实值函数。则 ?ng?Y,Y,?,Y?:?E?XY,Y,?,Y? 12nn???12???

??称为X在Y1,Y2,?,Yn下的条件期望。

设1?m?n??,则有

??E?EXY,Y,?,YY,Y,?,Y?12n12m?????EEXY,Y,?,YY,Y,?,Y, 12m12n?E?XY,Y,?,Y?m???12?以及对任何函数hY,Y,?,Y有

12n2???2?, E?X?EXY,Y,?,Y?EX?hY,Y,?,Y12n??12n????????????????????这是进行最小均方误差预测的基础。

对1?t??,记E(X):?EXY,Y,?,Y,则它为时间原点在t时

t?12t?对X的最小均方误差预测。称?:?Y?E(Y)是Y的预测误t?1t?1tt?1t?1差或新息,是不能预测到的部分。

预测误差具有以下性质: (1)E(?)?0, 新息的条件期望为零。因为

tt?1E(?)?EY?E(Y)?E(Y)?E(E(Y))tt?1tt?1tt?1tt?1ttt?1。 ?E(Y)?E(Y)?0tt?1tt?1(2)E(?)?0, 新息的无条件期望为零。因为

t?1E(?)?EE(?)?0。

t?1tt?1(3)cov?,Y?0,对每个1?i?t,新息与每个Y不相关。因为

t?1iicov?,Y?E?Y?EYY?EYE(Y)t?1it?1it?1iitt?1????????????E?YY??E?YY??0t?1it?1i???。

我们现在开始讨论ARMA过程的预测(或称预报),也包括AR(p)和MA(q)过程的特例。我们只介绍依赖于假设给定了无限样本

X,X,?,X,X,X?(到无穷远过去)TT?110?1的“近似预测”,它比较简单易懂。实际问题中只能给定了有限样本

X,X,?,X,依赖于此有限样本的“精确预测”很艰深难懂,就不

12T介绍了。当序列长度T很大时,近似预测与精确预测很接近。

设X为因果且可逆的ARMA(p,q)过程

?t?X????X????X?u??u????ut01t?1pt?pt1t?1qt?q,

。?(x)?1??1x????pxp?0u~IID(0,?2)(独立同分布的白噪声)

t与?(x)?1??1x????qxq?0的根都在单位圆|z|?1以外,且没有公共根。经过前面选定了模型后,参数?,?,?,?,?,?,?2都已经被估计

1p1q出来了,现在假设都是已知的。

则该过程有传递形式

?, X?????utjt?jj?0?j?(x)其中??E(X)?,且?(x)???x?,??1,

jt0p?(x)j?01???ii?1???j??。还有逆转形式 j?0?, u?????Xtjt?jj?0??0j?(x)???其中,且?(x)???x?,??1,

j0q?(x)j?01???jj?1???j??。 j?0从传递和逆转形式可看出:对1?t??,给定X,X,?(到无穷

tt?1远过去)的值等价于给定u,u,?(到无穷远过去)的值。因此当

tt?1?0时间原点在t时,记条件期望

?E(Y):?E?YX,X,?(到无穷远过去)tt?1??t??。

??E?Yu,u,?(到无穷远过去)???tt?1?由于u~IID(0,?2)是独立同分布的,我们有对1?t??,

tE(u)?E??ut?lut,ut?1,???tt?l??。 E(u)?0l?1??t?l??u?e(1):?X?E(X)l?0?t?lt?l?1t?lt?l?1t?l?对传递形式取条件期望,得到提前l期预测

?????E?????uu,u,??l?1,?jt?l?jtt?1?E(X)???j?0??tt?l?EXX,X,??Xl?0?t?ltt?1t?l ????????jut?l?jl?1,??j?l?Xl?0.t?l???对l?1预测误差为

e(l):?X?E(X)tt?ltt?l?????????????u?。 ??????ujt?l?j??jt?l?j??j?0j?l????l?1???ujt?l?jj?0又由于预测误差的期望为

?l?1???0, E[e(l)]?E???utjt?l?j???j?0?我们说预测是无偏的。由于u~IID(0,?2)是独立同分布的,从而预测

t误差的方差为

?l?1?l?122?????。 Var[e(l)]?Var???utjt?l?j?j?j?0?j?0?我们看到预测误差的方差只与提前时期l?1有关,而与时间原点l?1无关。特别地,由于??1,提前1期预测误差为

0e(1)?X?E(X)?u, tt?1tt?1t?12其方差为Var[e(l)]?Varu??。

tt?1?2?注解. 注意到收敛性????蕴含????,所以

jjj?0j?0???22limVar[e(l)]???????Var(X)??。

tjX,0tl??j?0即长期预测的误差方差单调上升趋于序列X的无条件方差。还可以

t??证明

a.e.?E(X)?????u???E(Xt)当l??时。

jt?l?jm.s.tt?lj?l即长期预测值将趋于序列X的无条件均值,这一现象在经济学中称

t??为预测是均值回复的。

如果进而有u~IIDN(0,?2)(独立同分布的高斯白噪声),则有

tl?1et(l):?X?E(X)???ujt?l?jt?ltt?lj?0,

l?1?22?~N?0,???j?j?0??因此Xt?l(l?1)的95%的预测区间为

l?12E(X)?1.96???。 tt?ljj?0

三种过程的递推预测。前面我们介绍了三种模型的一般预测方法。下面我们就三种过程的特殊性,学习每种过程的便于计算的递推预测。

一、因果的AR(p)过程的递推预测。设X为因果的AR(p)过程(1?p??)

?t?X????X????X?u, u~IID(0,?2)。 t01t?1pt?pttAR(p)过程还是无条件可逆的。设时间原点在1?t??。对任何l?1,在

X????X????X?u

t?l01t?l?1pt?l?pt?l式各项取条件期望E(?)(见前面定义),并利用u的独立性而得到提

tt前l期的最小均方误差“近似预测”

E(X)????E(X)????E(X)?0。 tt?l01tt?l?1ptt?l?p当l?1:

E(X)????X????X。

tt?101tpt?1?p当l?2:

E(X)????E(X)??X????X,

tt?201tt?12tpt?2?p其中带入上一步得到的E(X)值。依次递推?。

tt?1当l?p:

E(X)????E(X)????E(X)??X。 tt?p01tt?p?1p?1tt?1pt当l?p?1:

E(X)????E(X)????E(X),

tt?l01tt?l?1ptt?l?p依次递推得到点预测值。

如果需要区间预测,特别当u~IIDN(0,?2)时,则要按照前面介

t绍的一般方法,从传递形式着手。

二、可逆的MA(q)过程的递推预测,它比AR(p)过程的预测还简

单。设X为可逆的MA(q)过程

?t?X?c?u??u????u, u~IID(0,?2), tt1t?1qt?qt则c?E(X)。MA(q)过程还是无条件因果的。设时间原点在1?t??。

t对任何l?1,在

Xt?l?c?u??u????u????u

t?l1t?l?1ltqt?l?q式各项取条件期望E(?),并利用u的独立性而得到提前l期的最小均

tt方误差“近似预测”

??c??lut????qut?l?q1?l?q。 E(X)??tt?l?c?E(X)l?q?1t?预测误差为

e(l):?X?E(X)tt?ltt?l?ut?1????u??u????ut?l1t?l?1l?1t?1?u??u????u?qt?l?q?t?l1t?l?1其方差为

l?12?l?ql?q?1,

?2???Var[e(l)]:??(1??2????2)?2t1l?1?2????2)?2?Var(X)??(1???1qt0?l?12?l?q。 l?q?1所以,对MA(q)过程的预测,当l?q?1时都预测为序列的均值

c?E(X),预测误差恒定为序列的方差tVar(X)?(1??2????2)?2。

t1q如果进而有u~IIDN(0,?2)(独立同分布的高斯白噪声),则

tXt?l(l?1)的95%的预测区间为

E(X)?1.96Vare(l)。

tt?lt

三、因果可逆的ARMA(p,q)过程的递推预测。设X为因果且可逆的ARMA(p,q)过程

???t?X????X????X?u??u????ut01t?1pt?pt1t?1qt?q,

u~IID(0,?2)。设时间原点在1?t??。对任何l?1,在 tX????X????Xt?l01t?l?1pt?l?p

?u??u????ut?l1t?l?1qt?l?q式各项取条件期望E(?),并利用u的独立性而得到提前l期的最小均

tt方误差“近似预测”

??0??1Et(Xt?l?1)????pEt(Xt?l?p)?1?l?q???u????uE(X)??。 ltqt?l?qtt?l????E(X)????E(X)l?q?1?01tt?l?1ptt?l?p?如果需要区间预测,特别当u~IIDN(0,?2)时,则要按照前面介

t绍的一般方法,从传递形式着手。

例题 设有因果的AR (2) 过程

?1?0.5L??1?0.4L?Yt?9??t,其中?t~IID(0,0.25)。

已知Y?10.5,Y?9.6,Y?9.8。分别给出未来三期序列值9899100Y,Y,Y的最小均方误差点预报,及它们的2倍标准差预报区101102103解。由于该过程的特征方程?(x)?(1?0.5x)(1?0.4x)?0的两个根

间。

x1??2,x2?2.5都在单位圆z?1以外,此过程确实是因果的。AR(2)过

程还是无条件可逆的。

我们首先计算点预报值。把模型改写为

Y?9?0.1Y?0.2Y??。 tt?1t?2t设时间原点在t?100。对任何l?1,在

Y?9?0.1Y?0.2Y?? t?lt?l?1t?l?2t?l式中各项取条件期望E(?),得到

tE(Y)?9?0.1E(Y)?0.2E(Y)?0。 tt?ltt?l?1tt?l?2所以Y的点预报为

101E(Y)?9?0.1E(Y)?0.2E(Y)10010110010010099?9?0.1Y?0.2Y。 10099?9?0.1?9.8?0.2?9.6?9.94Y的点预报为 102E(Y)?9?0.1E(Y)?0.2E(Y)100102100101100100?9?0.1E(Y)?0.2Y。 100101100?9?0.1?9.94?0.2?9.8?9.966Y的点预报为 103E(Y)?9?0.1E(Y)?0.2E(Y)100103100102100101。 ?9?0.1?9.966?0.2?9.94?9.9914 由于此AR(2)过程是因果的,可以写出它的传递形式,用于计算预报区间。

??01Y?????????jt?jtt?(1)?(L)j?091???t(1?0.5)(1?0.4)(1?0.5L)(1?0.4L)1?54??10????t?9?1?0.5L1?0.4L???1??jj?10??5?(?0.5L)?4?(0.4L)??t9?j?0?j?0???1??jj??10??5?(?0.5)?4?(0.4)??, t?j9?j?0?j?0??其中

??01Y?????????jt?jtt?(1)?(L)j?091???t(1?0.5)(1?0.4)(1?0.5L)(1?0.4L)1?54??10????t?9?1?0.5L1?0.4L???1??jj?10??5?(?0.5L)?4?(0.4L)??t9?j?0?j?0???1?jj?10??5(?0.5)?4(0.4)????t?j, 9??j?0?1?jj其中Green函数为???5(?0.5)?4(0.4)?j?0。 j9????l?1 提前l?1期预测的误差为et(l)????,其方差为

jt?l?jj?0l?12Var[e(l)]??2??。所以,

jtj?0Var[e(1)]??2?0.25100Var[e(2)]??2(1??2)?0.25(1?(?0.1)2)?0.2525,

1001Var[e(3)]??2(1??2??2)?0.25(1?(?0.1)2?0.212)。 10012?0.263525,

Y的2倍标准差预测区间是E(Y)?2Var[et(l)]。从而t?ltt?l的2倍标准差预报区间分别是9.94?1.0,Y,Y,Y1011021039.966?1.0050,9.9914?1.0267。 □

本文来源:https://www.bwwdw.com/article/2k7f.html

Top