统计套利策略在我国股票市场上的实证分析

更新时间:2024-06-10 05:26:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计套利策略在我国股票市场上的实证分析

摘要

2010年3月31日中国正式启动融资融券业务,为统计套利策略提供了可能。统计套利是一种基于数据挖掘的量化证券交易策略,在成熟的资本主义市场,统计套利已经成为对冲基金和投资银行的常用策略。

本文采用的是统计套利中基于协整方法的配对交易策略,在确定套利区间时 使用较为经典的常用参数法、GARCH法以及基于O-U过程的统计套利方法,对沪深两市500只融资融券标的股的日收盘价进行模拟,考察统计套利策略在当今中国A股市场上的应用情况。

本文采用了 2013年1月25日更新,2013年1月31日开始实行的融资融券标的,并对全盘而不只是单个行业进行研究。本文还对三种确定套利区间的模型进行了比较,其中,在GARCH模型的使用上采用了以往使用较少的二阶模型。

关键字:统计套利 配对交易GARCH模型 0-U过程

Abstract

Since March 31th,Chinese investors are allowed to short stocks. It is possible to use statistical arbitrage, which is a quantitative strategy commonly used at Wall Street since than.

This essay uses the strategy of pair trading, with three classic models to accomplish the research.Two of them are called GARCH and O-U model. 500 stocks are included in this research to test these three models.

The essay uses the newly updated data and the models are modified, too. Among them GARCH model draws the most attention.

Key words: statistical arbitrage, pair trading, GARCH model, O-U model

1.绪论

1.1选题的背景

“融资融券”也被称为“证券信用交易”、保证金交易,是指投资者向具有 融资融券业务资格的证券公司提供担保物,借入资金买入证券(融资交易)或借入证券并卖出(融券交易)的行为。融资融券制度在世界范围内是一项基本的信用交易制度。

2010年3月的最后一天,中国正式启动融资融券业务,第一批入围“标的股”股票共90只,标志着“做空时代”的到来。2011年12月5日起,融资融券标的股范围扩大到278只,包括上证180指数全部成分股和深证100指数成分股中除深圳能源和粵电力A的98只股票,还有7只交易型开放式指数基金(ETF)。自2013年1月31日起,融资融券标的股票由278只增至500只,其中上海证券交易所宣布融资融券标的股将由180只增至300只,且作为融资融券标的的交易型开放式指数基金(ETF)数量不变,深圳证券交易所宣布融资融券标的股票将由98只增至200只。

融资融券业务一定会给证券市场带来新的增量资金,但融资融券活跃交易的作用更加明显,此外,融资融券业务还能完善市场的价格发现功能。更重要的是,融资融券的推出为投资者提供了新的盈利模式。融资融券为杠杆化金融交易提供了便利,即使市场下跌,融券仍可以使投资者实现盈利。

由于缺少工具,常用套利策略中的可转换套利和固定收益套利目前较难实施。融资融券业务的展开为一种对冲策略——统计套利策略提供了可能。统计套利是一种基于数据挖掘的量化证券交易策略,在设计交易策略时只关注历史数据,忽略基本面的分析。由于涉及到海量数据,策略的设计依赖于计算机编程,一旦策略设计完成,也可以通过计算机自动交易。在成熟的资本主义市场,统计套利已经成为对冲基金和投资银行的常用策略。

因此融资融券启动前后,各大券商纷纷加大对融资融券和股指期货的研究力度,推出了一系列研究报告,其中出现最多的当属统计套利,中信、海通、华泰联合、光大、招商、齐鲁、浙商等券商都曾出过关于统计套利的研究报告,并据此构建各自的统计套利策略组合。这些报告选择的标的股票和模拟时间段不同,但得出的结论基本一致,即统计套利方法的盈利远高于同期的股票指数,而且稳定性良好。可见,随着“做空时代”的到来,统计套利策略和量化投资策略将会占据越来越重要的地位。

1.2研究的意义

统计套利起源于1985年的Morgan Stanley,最早是一个用匹配组合的方法买卖股票的投资策略。1985-2000年间,统计套利策略获得了巨大的收益。配对交易是统计套利中最基本的方法,也是统计套利初期使用最广泛的方法。其操作原理是:选取两只相关性强的股票,评估它们的相对价值,做多价值被低估的股票并同时做空价值被高估的股票。比较复杂的统计套利考虑的是多只股票(即一个适当的股票池)的相对价值,通过计算决定做多还是做空某一部分股票。这些

股票隶属于不同的板块,可以对冲非系统风险。

然而,2002-2004年间,使用统计套利策略运作的基金业绩平平,Andrew Pole(2007)在《统计套利》中猜测这是因为过度的竞争导致价格波动消失,而价格波动正是统计套利的基础。但统计套利策略并没有就此消失,而是获得了进一步的发展,在调整适应市场的新变化之后,继续获得稳定的收益。

统计套利的历史不长,而中国的融资融券业务又刚刚起步,因此这一领域具有很大的研究潜力。之前几乎所有文献在使用统计套利方法分析中国的A股市场时都得出了振奋人心的结论,即统计套利策略不但可以应用于A股市场,而且可以获得较高并且稳定的收益。由于很多文献釆用的都是配对交易方法,本文也着重研究这一最基本的统计套利方法,试图用最新的数据验证前人得出的结论,探讨在融资融券业务开展两年之后,配对交易策略是否仍然适用于中国的A股市场,还是像美国股票市场一样,由于过度竞争而导致收益率大幅下降。本文还将探讨不同套利模型的收益率,比较各个模型的优劣。

统计套利策略更多的被认为是短期交易策略,因此策略具有非常强的时效性。从数据横跨时间的角度来说,本文选取了 2011年1月31日-2013年1月31日的数据,包括了最新的交易数据。而且使用的数据时间跨度比较长,保证了趋势 的稳定。从股票种类来说,本文选择的股票标的是2013年1月31日期实行的新标的。新标的股票的公布时间是2013年1月15日,至此时不过2个多月,大规模的研究论文和报告还没有发表,因此本文具有对现期较强的参考价值。

1.3研究的思路和方法

本文的研究方法是实证分析法。文章被分为两个部分:理论部分和实证部分。市场摩擦、信息不对称和交易者非理性等问题会导致市场价格对资产定价模型或者市场均衡模型的短期市场偏离,统计套利机会就在这些偏离中产生,其核心思想正是发现错误定价关系。常用的统计套利策略有四种实现方法,非别是配对交易策略(Pairs Trading);多因子套利策略(Multi-factor Model);均值回归策略(Mean-reverting Strategies);协整套利策略(Cointegration)。出于前文提到过的研究目的的原因和作者本人条件限制的原因,本文釆用的是基于协整方法的配对交易策略。

协整方法的思路是,通过协整检验,若发现多只股票之间存在协整关系,就按照因变量和自变量的位置关系和协整向量将各股票划分为组合内的多头和空头,建立统计套利模型。协整方法的步骤如下:1)选取配对股票,2)分析价差走势,3)确定套利区间,4)样本内套利收益计算,5)样本外套利收益检验。

因此在理论部分,本文将使用数学方法阐明基于协整方法的配对交易方法的每一个步骤的合理性和操作方法。实证部分的思路非常直观,即按照理论推导的公式一步一步进行验证:首先选取500只融资融券标的股的日收盘价进行配对分析,找出配对股票并确认该股票对的协整关系,然后使用三种不同方法确定交易边界,再使用计算机编程进行模拟交易,计算交易盈亏,并将三种不同的交易边界得到的不同结果进行比较。

在理论部分,本文釆用了演绎推理的数学方法。实证部分由于数据量较大,在选取配对股票以反最后模拟交易的过程中需要用到matlab软件,通过matlab本身的函数功能和编写的一些程序来实现最后的结果。协整方法要用到的平稳性检

验、协整检验和GARCH模型的检验和估计将会用专业处理时间序列的Eviews统计软件来实现。

1.4本文的创新点

本文的协整过程采用了误差修正模型(ECM)。在确定套利区间时,本文釆用了较为经典的常用参数法、GARCH法以及基于0-U过程的统计套利方法。所有模型都没有经过大的改动,但国内目前存在的大部分文献在制定交易规则时都只采用一种方法,而本文涉及到了三种方法,并对这三种交易状态下的股票交易结果做出直观的比较。其中在使用GARCH模型时,本文放弃了最常用的GARCH (1,1)模型,而是采用了精度更高的二阶模型。

2.文献综述

2.1统计套利的定义

统计套利策略的使用可以追溯到20世纪80年代的摩根士丹利,但“统计套利”一词直到在20世纪90年代才开始使用,而统计套利确切定义的提出是在21世纪。统计套利有三种通行的定义。

1. Bondarenko Oleg (2003)在他们的经典文献中用数学公式给出了 一种比较完善的定义:统计套利策略是收益为=ZT=Z(IT)的自融资交易策略,它同时满足两个条件:

(1) E(ZT|I0) > 0,(2) ??T ,E(ZT|It

其中{ It

It

??????)≥0.

= (

?,?00

?1,

?t ),t= 0,1,...,T}为信息集, ?t代表t时刻的市场状态,

=( It,

?T)=( ?,?1,?

?t;?T)为扩展信息集,是包括某一时刻和最终的市场

状态的信息集。

和标准无风险套利策略对比定义:收益为ZT = Z(IT)的策略,同时满足以下两个条件:(1)E(ZT |I0)>0, (2) ??T , ZT ≥0,并且是自融资交易策略。

可以看出,统计套利是标准套利的发展和延伸。

2.Hogan S , Jarrow R,Teo M, Warachka M (2004)的文章给出了统计套利的精确定义,即统计套利以如下策略进行自融资交易,首先用(Xt :t≥0)表示该策略在t时的累积收益为Vt,其次我们考虑Bt是基于无风险利率的折现因子,这样可以将收益累积折现值记为vt = Vt|Bt,且vt满足:

(1) v0= 0

⑵ lim E(vt)>0 ???(3) lim p(vt <0)=0 ???p

(4) ?t<∞,如果P(vt <0) > 0,那么limVar(vt) = 0 ???以上条件的经济意义可以表述为如下四个方面,包括:

(1)以初始化为零的自融资交易策略为核心的统计套利描述; (2)预期折现收益为正向值的描述; (3)预期亏损概率趋近于零的描述;

(4)在有限时间内损失非零情况下的时间均放值趋向于零的描述。

条件(4)说明统计套利并不保证盈利,但是随着时间的推移,发生损失的概率越来越小,最终收敛于0.数学意义表述为:交易策略的方差不能高于随着时间的无限增长而增长的交易速度。根据这个数学表述,我们可以粗略的认为统计套利策略是可以生无风险收益的长期交易策略。

3.在以上的基础上,Robert Jarrow, Melvyn Teo, YiuKuenTse, &Mitch Warachka (2005)给出了统计套利的一系列扩展定义——它是一个初始化为零的成本决策,采用自融资的交易策略,其累积收益的折现和增量情况应该满足以下公式:

(1) v0= 0

⑵ lim E(vt)>0 ???(3) lim p(vt <0)=0 ???(4)limVar(Δvt |Δvt <0)=0 ???该定义中的前三个条件与 Hogan S , Jarrow R . Teo M, Warachka M(2004)的定义相同,只是对第四个条件进行了修正。根据条件(4)如果投资人只是关心投资的潜在风险,或者说是财富的潜在损失,那么当收益折现是正向值时,这种损失波动是没有约束的。

上述后文的两个定义中的第四个条件都不包含其经济定义中的一些方面,比如在有限时间内产生了套利利润,并且为补偿这种不确定而对风险的时间性变化产生限制等因素。其中,有较小风险性的瞬时交易的利润情况在后两个定义的条件(4)中给出了定义,它将套利界限重新设限并且整合到原先的统计套利范围内。

p

2.2统计套利策略的类型

统计套利主要有如下四种策略:配对交易策略(Pairs Trading);多因子套利策略(Multi-factor Model);均值回归策略(Mean-reverting Strategies);协整套利策略(Cointegration)。统计套利方法的范围,从最古老的纯粹匹配交易机制到复杂的、动态的非线性模型,应用的技术包括神经网络(neural networks).小波分析(wavelets)、分形分析(fractals),几乎覆盖了所有的统计学、物理学和数学模拟匹配技术。这些技术经过分析师的反复检验,不断淘汰不合适的方法,留下具有实用性的方法。

如前文所述,本文只着重研究了其中基于协整方法的配对交易策略。这种交易策略也是目前国内文献中最常研究的。

2.3国外研究现状

Burgess (1999)使用逐步回归法以及误差修正法研究了 FTSE100指数及其成分股,统计套利被他定义为传统的“零风险”套利的一个扩展。

Gatev, Goetzmann和Rouwenhorst (1999) 在文章中提出了使用与给定股票的

标准化序列之间的偏差平方和最小的股票构成股票对,相应的阈限值是配对股票标准化价格的差的历史标准差的两倍。在Nath (2003)用实证方法分析了建仓和平仓时机的选择,文章得出的结果认为建仓的时机是观测到的配对股票的偏差超过阈限值的15%时,同时,当这种偏差距离设定的平仓范围小于5%时,是平仓的时机。

DmytroSudak和OlenaSuslova(2003) 运用行为统计套利策略去发现最优投资组合,他们在实证研究中把累积收益当做判断股票优劣的指标,并且提出三种判断最优投资组合的方法:组合最小方差、组合多头与空头头寸之间的最小协方差以及组合beta值为0时的最小方差和协方差。对两个样本内区间和三个样本外区间分别进行检验,得到了预期的风险收益效果。Whistler(2004)将相关系数接近或为1的股票配对,接着使用价格比或价格差以及累计概率等统计数据,将基本分析和技术分析的趋势相结合来决定进出场点。Ganapathy Vidyamurthy (2004) 提出统计套利是一种建立在相对价基础上的思考方法,这种思考认为具有相似特征的股票的价格在理论上应该是相似的,价格差异度是一种错误定价形成的,并且价格差异越大,那么价格被错定的程度越高。与此同时,他还通过将协整方法和统计套利方法结合起来使用,是配对的交易有了指数化的形式。Carol Alexander和AncaDimitriu (2005)对指数化跟踪的研究方法进行了改进,将协整方法的统计套利策略运用其中。他们的研究成果表明:与市场相关性小、波动率低、近似正态分布是协整话的统计套利策略的显著特征,并且研究表明这种方法的跟踪差方差明显优于其他方法。

Elliott, Van Der Hoek和Malcolm (2005) 对于该领域研究的贡献在于他们成功构造了一个能够观测到的配对股票之间的价差过程,这篇文章给出了运用随机价差模型进行配对交易的一个基本的分析框架。

Thoraaidis(2006)将神经网络的GARCH的自回归模型应用于统计套利中,并由此计算股票的投资机率和套利的可能性。

Low(2009)在股票市场中性策略调查报告中指出,市场中性策略是受市场影响较小的少数几个策略之一。调查发现,股票市场中性策略相比其他策略在长期具有更低的年化波动率,因此可以避免市场下跌的影响。而且在过去10年中,股票市场中性策略可以获得正的风险调整收益率。报告还指出,虽然市场中性策略在牛市中无法充分获得市场收益率,但是在熊市中,该策略却可以完全避免市场下跌的风险,获得稳定的低风险收益率。

Engle和Granger (1987)提出了协整理论,为建立一个配对交易参数化的模型提供了一种思路。Ti_ermann(2009)发展了连续时间协整分析法,并用此方法模拟了利用均值回归识别错误定价的风险套利过程,计算出了最优交易策略的表达式。文章得出的结论是,风险套利以预期收益最大化为标准,而传统套利以获得组合资产价格为0为目标,二者是不同的。Bolgun等(2009),收集了在伊斯坦布尔股票交易所上市的公司从2002到2008年间的股票日收盘价,并使用动态统计套利策略进行实证分析。文章为了提高不同成分股价格之间存在均值回归的可能性,在对ISE30指数成分股进行统计套利时没有按照行业进行分类。研究结果表明,相对于单纯的购买并持有策略,成对股票组合产生的同平均收益率要高出3.36%。但值得一提的是,交易限制和交易佣金大幅减低了成对股票组合超额收益率,使得实际收益只占理论收益的一小部分。

William K. Bertram(2010) _计算出了服从O-U过程时交易信号的最优解。Mark Cummins (2010)使用爱尔兰交易所的交易数据,发展了一种全面的综合的实

证分析法。结果发现,假设对数价差序列满足的O-U过程会产生较大的误差,这种误差体现在:该假设会使得对单位时间期望收益估计过高和对交易策略持续时间估计过低。同时,该文献还发现,Bertram (2010)提出的模型是非常适于模拟具有高均值回复性的随机过程的。

Christian L. Dunis 和 GianluigiGiorgioni (2010) 使用高频数据而非日交易数据进行套利,文章对具有协整关系的股票对以及没有协整关系股票对的套利立即收益率进行了比较,结果表明,股票间价格协整程度越高,进行统计套利的机会就越多,潜在收益率也越高。

2.4国内研究现状

方昊(2005)研究了统计套利的基本原理、理论模式和交易策略,然后用中国封闭式基金市场的数据加以模拟检验,探讨了在实践中统计套利是否能被应用,得出的结论是统计套利策略我国封闭式基金市场上有效。徐玉莲(2005)应用新的资本市场效率检验方法,对存在于中国股票市场中的价格惯性和价格反转以及价值反转的投资策略运用统计套利方法进行了检验,并且在价值反转投资策略中发现了 7种可生成统计套利的策略。徐光梅(2008) 用实证方法检验了沪市A股的动量效应,在此过程中将统计套利的市场中性性质引入投资组合,先假设组合策略能够生成统计套利机会,在此基础上构建投资组合,检验动量投资策略持有期的可盈利性,以此为依据判断市场是否具有动量效应及效应的大小。陈之远(2011) 使用Larson和Arberg (2002)的方法对沪深两市选定的股票进行研究,在这一方面,行为统计套利模型比传统价格动量交易策略更有效,因为它在提高收益率的同时还降低了波动率。

韩广哲,陈守东(2007) 运用上证50指数的50个成分股,运用套利模型研究发现股票价格符合偏离随机游走的性质,因此股票价格可以被预测。并且,运用联立方程模型的估计结果说明,错误定价易于在短期内形成趋势,而在较长时期内回复。于玮婷(2011)选取了当时我国融资融券标的90只股票作为研究对象,使用协整方法,对成对交易的统计套利策略的收益率等指标进行了实证分析,结果表明统计套利可以较好地运用于中国市场。另外,在实际情况中,学者发现统计套利策略不足以解决具体考虑投资相关的许多问题,因此,需要将更多的精力投入到更加全面、更加详细的研究当中,以便提高该策略在解决实际问题中的效用(陈祥利2011).王云平(2011) 一起使用协整理论和传统的统计套利方法,模拟了一年内的历史数据,然后对策略的稳健性做了预测检验。实证结果证明了该策略的可行性与收益性.同样地,协整分析成为了该类问题不可或缺的方法,并在此基础之上,学者结合GARCH(1,1)模型分析向前复权收盘价格的时间序列,有效地估计价差序列的动态标准差σe,并以此作为交易信号,以便有效地对配对交易进行有效性分析(胡丹丹2011) 除此之外,该作者在处理数据的过程中使用了三阶的移动平均以补给缺失值进行处理,该种处理也为之后的深入的分析提供了必要的条件。

袁瑶,朱华成(2008) 使用统计套利策略跟踪了沪深300成分股中的30对股票,对2008年3月10日-9月10日和2004年2月13日-2008年9月10日两个时间段内的实际交易数据进行了统计套利模拟,结果显示统计套利策略的累积收益率高于同期上证综指累计收益率,而且波动性低于同期上证综指水平或与上证综指水平相仿。胡浩(2008) 分析了宝钢和武钢的价差走势,分以收盘价为交易对象进行低频交易和以日内价格为交易对象进行高频交易,两种交易方式均获得了年化50%以上的收益率,并且得出了统计套利组合与沪深300指数之间相关性很低的

结论。张雷,刘洋,张爱玲(2010)对当时的90只标的股票进行两两配对检验,筛选出60个具有可供操作参考的配对组合,并根据价差建立套利模型。通过对建设银行和工商银行之间的套利过程进行模拟,发现在08、09年,建设银行和工商银行之间存在5次较好套利机会,去除交易成本,累计获利达到42. 88%。报告认为,考虑到融资成本,是否利用融资来放大这种套利效果还需进一步研究。周健(2010) 先以沪深300指数成分股作为股票池,然后使用银行业14支股票的数据和高频数据进行实证研究,结果发现在行业内进行策略构建,综合股票流动性、公司基本面和消息面上的分析,以高频数据为基础,构造出来的统计套利产品样本外收益更高。

在以往的研究基础之上进行比较分析,动态统计套利的方法比传统的方法来说有明显的改进,无论是在收益结果的稳定性还是在套利机会上都增加了更多,最终导致的结果是有更高的交易成功率,此外,该方法可以得到的市场走势也变得更为稳定(刘海燕,2011)。

董艺停,葛新元(2011)将特定事件的发生作为配对交易的另一触发条件,采用高频交易,构建了基于事件冲击的统计套利策略。在实证的测试区间内,收益基本持平,而同期沪深300收益率为-48. 15%。放松交易成本和融资融券利息的设置,降低融资融券利率和交易成本,仍然采用之前的交易参数,收益大幅提高,并且非常可观,整个持有期内,净值低于1的天数仅为10天。陈怡(2012)尝试将统计套利的方法引入分级基金交易,采用“成对交易”策略,实证结果表明:1)相比优先份额,进取份额是成对交易策略更稳定的交易标的;2)不论市场表现如何,该策略都可以获得高于大盘的收益和夏普比率;3)如果市场时单边的熊市,组合价差将长期偏离均衡,该策略不能获得绝对收益。

2.5文献述评

统计套利研究领域的可查文献主要分为如下几类:1)指出统计套利策略优势;2)分析统计套利与传统无风险套利的区别:3)统计套利策略实证研究;4)统计套利的新方法。除文献综述外所有文章都采用了实证的研究方法。可查的文献中,统计套利研究数据主要采用日收盘价。随着近两年高频数据运用的兴起,有少数文献开始采用日内高频数据。

由于统计套利策略已经在国外使用了将近30年的时间,国外的文献一般都致力于对已有的策略进行重新验证和调整,在确定股票池,构造残差,交易时机的选择上不断增加模型精度,并用不同时期的数据进行验证.

由于做空机制的缺失,国内关于统计套利的研究起步较晚。2010年融资融券试点开始后,国内的一些证券研究机构相继发布了一系列研究报告。这些报告大多采用已有模型来验证中国市场的数据,得出的结论基本一致,即统计套利策略在中国股票市场有效。而学术论文的不仅分析数据,也注重分析模型本身,在建模原理方面有更多思考。但总的来说,国内文献在模型的发展上贡献有限,研究的重点还是放在对国外研究中经典模型的验证上.

3.协整理论

协整关系是配对交易的基础。若两只股票的收益率之间具有协整关系,我们认为他们之间存在着某种稳定联系,所以当两只股票的收益率出现背离,说明其中一只股票的收益率被低估而另一只股票的收益率被高估,此时因做多价值被低估

的股票,做空价值被高估的股票。因此协整方法的第一步,就是选取两只相关性很高的股票,判断他们之间是否存在协整关系。

3.1选取配对交易股票

统计套利策略属于市场中性策略,它通过对相关证券进行对冲来获得与市场相独立的稳定性收益。统计套利策略的理论基础就是均值回归,也就是说,如果两个相关性很高的投资标的价格之间存在着某种稳定的关系,短暂的偏离会不断地得到调整,并逐渐回归均值水平。具体而言,那么当二者的价格出现背离走势时,但是投资者预期未来这种偏离会得到有效的修正,纵然短期内两者之间的套利空间会增大,但是长期的回归使得二者之间存在套利空间。在实际投资中,价格的背离使得聪明的投资者可以买进被低估的,卖出被高估的,以获取未来相对稳定的收益。因此统计套利的第一步就是要选取相关性很强的股票,选股时采用距离法,根据距离公式(其中γAγB分别是股票A和B的收益率) d(A,B)=|ρ|= (3-1)

可知,股票之间的距离就是股票的相关系数,相关系数越接近1,两只股票的收益率越接近。在实际计算时,也用A、B的对数价格来代替各自的收益率。

3.2交易数据分析

在选取两只距离较近的股票后,需要对两只股票的收益率进行协整检验,已确定两只股票之间是否真的存在协整关系。这一过程包括两个部分:首先是对各自股票收益率的平稳性检验,保证其趋势是平稳的,其次是对两只股票收益率的残差进行检验,保证其残差是平稳序列。

3.2.1平稳性检验

依赖于时间t的随机变量集合{yt}成为随机过程。随机过程概念很广泛,其中有一种特殊情况叫白噪音,其定义为:如果随机过程服从的分布不随时间改变,且对所有t满足:

E(yt) = 0 (3-2) Var(yt) = E(yt2) =σy2=常数 (3-3) 同时

Cov(yt ,ys) =E(yt* ys), (t ≠s) (3-4)

那么,这一随机过程成为白噪音。

如果一个随机过程在时间过程上的均值和方差都是恒定的,并且在任何两时期的协方差的值仅依赖于这两时期间的距离或滞后,而非依赖于计算这个协方差的实际时间,就称这个随机过程为平稳的。用数学公式表达如下,对所有t:

均值

E(yt) =μ (3-5) 方差

var(yt) =E(yt-μ)=σ2 (3-6) 协方差

γk=E[(yt -μ) (yt+k -μ)] (3-7)

其中γk即为滞后k期的协方差,也就是相隔k期的两期yt和yt+k的协方差。有时时间序列的高度相关是因为二者同时随时间的推移有向上或向下变化的趋

势,事实上并没有真正的联系。在这种情况下,将其中一个变量对另一个变量进行回归可能导致荒谬的结果,这种情况被称为“伪回归”。伪回归的拟合优度、显著性水平等指标有可能都很好,但是由于其残差序列是一个非平稳序列,因此这种回归关系不能够真实地反映因变量和解释变量之间的关系,仅仅是一种数字上的巧合而已。

为了避免伪回归的情况,需要对时间序列进行单位根检验。常用的单位根检验方法是由David Dickey和Wayne Fuller提出的DF法。考虑模型

Yt =ρYt-1+μt) (3-8) 其中μt即前面提到的零均值,恒定方差,非自相关的白噪音。 由上式可以得到

(3-9) (3-10) (3-11)

依次代入相邻的上式,整理可得

(3-12)

根据ρ取值的不同,可以分三种情况考虑:

若ρ

若p>l,则当T ?∞ 时,ρT?∞,即随着时间的推移对序列冲击的影响逐渐增大,此时序列不稳定。

若P = 1,则当T ?∞时, ρT = 1,即随着时间的推移对序列冲击的影响不变,此时序列也是不稳定的。

建立零假设H0:ρ = 1.如果拒绝零假设,则Yt没有单位根,此时是Yt平稳的;如果不能拒绝零假设,我们就认为Yt具有单位根,是不稳定的。

令ΔYt =Yt-Yt-1,方程(3-8)也可以写成:

ΔYt = (ρ- l) Yt -1 +μt=δYt-1+μt (3-13)

此时的零假设为:H0: δ = 0.如果不能拒绝原假设,则认为ΔYt =μt是一个平稳序列,即Yt一阶差分后是一个平稳序列,称为一阶单整,记为I(1). I(1)过程在金融、经济时间序列数据中是最普遍的。

从理论和应用的角度,除(3-13)外,DF检验的模型还有以下两个: (3-14)

(3-15)

(3-14) (3-15)和(3-13)的差别在于是否包含截距和趋势项。如果误差是自相关的,就把(3-15)修改如下:

(3-16)

像这样增加了ΔYt滞后项的DF检验又被称为ADF检验(augmented Dickey-Fuller test)。ADF检验的统计量和DF检验的统计量有同样的渐进分布,使用相同的临界值。

3.2.2协整检验

虽然一些经济金融变量是非平稳序列,但由于它们可能受某些共同因素的影响,导致他们的线性组合是一个平稳序列,可以解释为变量之间存在一种稳定关系,即协整关系。常用的检验方法有EG检验(Engle and Granger test)、CRDW检验(Cointegration regression Durbin-Watson test)和 Johansen 检验。本文用的是EG检验,因此这里只介绍EG检验。

假设有序列Xt和Yt,且Xt和Yt都是I(1).要检验它们是否存在协整关系,首先用OLS对协整回归方程,

(3—17)

进行估计,然后检验残差et是否平稳。若Xt和Yt,不存在协整关系,那么它们的任一线性组合都是非平稳的,残差e t也将是非平稳的。

3.3.3误差修正模型

误差修正模型(Error Correction Model)是在 1978 年由 Davidson, Hendry,Srba和Yeo提出的,所以其基本形式又称DHSY模型。 假设两个变量的长期均衡关系为

(3-18)

由于在现实中常常有某种冲击导致两个变量在短期内偏离长期均衡,呈现短期的非均衡关系。假设变量X,Y都是I(1),可以写出具有动态特征的(1.1)阶分布滞后模型

(3-19)

将上式写成:

(3-20) 将(3-20)简写成

(3-21)

其中

(3-21)和(3-19)是等价的,(3-21)说明变量Y的短期变化取决于变量X的短期变化和上一期偏离均衡的程度,Y的值对前期的非均衡程度做出了一定的修正。

最常用的ECM模型的估计方法是Engle和Granger (1987)提出的两步法。首先计算非均衡误差μt,然后对μt进行平稳性检验。如果μt,通过平稳性检验,则序列X和Y协整。

4.确定交易信号的方法

在套利的过程中,我们需要选定一个参数,当这个参数达到某个临界值时提示某种操作,这个临界值就是交易信号。在配对交易策略中,这个参数通常是两个股票收益率序列的残差。而确定这个临界值的方法多种多样,不同的方法获得的最终收益率不同。本文涉及到三种经典方法:常用参数法,GARCH法和基于O-U过程的统计套利法。

4.1交易原理

统计套利策略是建立在均值回复的理论基础之上的,这一理论认为残差序列总是会回归到均值。因此当残差序列偏离均值,就被视为套利机会,而当残差回归均值,则进行反向操作。交易信号被定义为残差标准差的某个倍数,当残差偏离均值达到这一倍数,就开始进行买卖操作,当残差回归均值,则进行反向操作获得收益。标准差某个更高的倍数被视为止损点,若残差达到这个点,则损失过大,此时的应该将套利组合平仓。

4.2交易规则制定方法 4.2.1常用参数法

John Wiley & Sons (2005)在著作 Pairs Trading; Quantitative Methods and Analysis中通过随机模拟得到如下结论:假设去中心化后价差波动是一个白噪声序列,那么最大收益的交易边界条件是标准差的±0.75倍,选取2倍标准差为上下止损位。这一结论被广泛应用于配对交易研究,国内的许多研究就直接使用了这个结论。但Vidyamurthy (2004)研究发现,当残差序列符合正态分布时,0.75倍标准差的触发条件才是最佳的交易型号值。但实际情况中残差序列不可能符合正态分布,因此采用0. 75倍标准差作为触发条件是不合适的。但本文仍会采用此种方法,一方面是验证这种方法的合理性,另一方与另外两种方法形成对比,观测此模型在中国A股市场上的适用情况。

4.2.2 GARCH 模型

Engle(1982)提出用 ARCH 模型(Autoregressive conditional heteroskedasticity model)分析时间序列的异方差性,此后波勒斯列夫T. Bollerslev(1986)又提出了 GARCH模型,GARCH模型称为广义ARCH模型,是ARCH模型的拓展。GARCH模型是一个专门处理金融数据回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模,因此特别适用于波动性的分析和预测。这种分析能对投资者的决策起到非常重要的指导性作用,它的意义往往超过了对数值本身的分析和预测。 GARCH模型的基本形式如下:

(4-1) (4-2)

(4-3)

我们称序列yt服从GARCH (p,q)过程.其中

时刻及t-1时刻之前的信息集。vt独立同分布,且参数满足条件:

是t-1

可以看成每一期残差的加权平均值,系数之和

序列波动的持续性,

反映了

越接近于1,序列在过去时刻有关波动的

特征就越持续,也就是说序列的波动性越大。

GARCH模型中,

可以通过

估计出来,操作时分别估计均值方程和方

差方程。(p,q)的值根据实际模型回归的效果来确定。

4.2.3 Ornstein-Uhlenbeck 过程

Ornstein-Uhlenbeck过程是随机过程的一种,可以很好地描述序列均值回复的特性,因此经常被用在市场中性策略的研究之中。在配对交易过程中,假设残差序列符合O-U过程,通过估计0-U过程的参数来寻找目标函数的最优解。本文的O-U过程方法借鉴了刘海燕(2011)的《基于O-U过程的统计套利研究》一文。

4.2.3.1 O-U过程的系数估计

假设两只股票在t时刻的价格分别为价差序列:

(4-4)

对价差序列去中心化,得到残差序列:

(4-5)

由于残差序列均值为0,假设残差序列符合以下O-U过程:

, ,经过协整回归和误差修正得到

(4-6)

其中是维纳过程。

使用参数变换和伊藤定理可将上式转化为:

(4-7)

将式(4-7)简写为:

(4-8)

其中

式(4-8)可以看做et的自回归过程,我们对模型系数的估计可以用待定系数法,对e t做自回归获得模型参数:

(4-9)

得到:

整理,得:

(4-10)

(4-11)

4.2. 3.2收益函数r(a,m,c)均值和方差的表达式

假设当et= a时进入交易, et= m时平仓,如果不考虑交易成本,则收益为:

(4-12)

得到交易信号Δ的解为:

Δ= (m - a)/Stspread (4-13)

已知et是一个随机变量,因此一个交易周期的时间间隔(从a到m再到a)t也是随机变量。假设a

t=t1+t2 (4-14)

t1表示持仓时间, t2表示空仓时间。由于t2符合Markov过程,因此时间间隔 t1, t2是相互独立的, t的均值和方差可以写成:

E(t) = E(t1) + E(t2) (4-15) V(t) = V(t1) + V/( t2) (4-16)

r (a. m. c)表示每个周期内的收益函数,r (a,m, c)=m-a-c,该收益函数的影响因素包括买入点a,卖出点m,以及交易成本C。收益函数的平均收益和方差可以写作:

(4-17)

(4-18)

其中E(Nt)表示ι时间内交易的次数,也就是交易周期个数。那么

(4-19)

(4-20)

代入上述两式,得:

μ(a,m,c,t) = r(a,m, c)/E(t) (4-21)

(4-22)

4.2.3.3交易周期t均值和方差

已知et服从O-U过程

(4-6),根据伊藤引理进行转换,令

,将上式转化为:

(4-23)

同时,将a, m, c分别转化为交易周期转化成T =αι。令y = y0是起始值,y = b是关卡值,则一个交易周期为Tby0=inf{t≥ 0,Yt>b|Y0=y0}。将交易周期的均值表达式写成:

(4-24)

其中

(4-25)

将交易周期的方差写为:

(4-26)

其中

(4-27)

(4-28)

由于O-U过程具有对称性,当Yt= 0时,得到,则持仓时间

和空仓时间

(4-29)

是双伽马函数

和T0,y0= T0-y0。又由

分别为

得到交易周期的均值为:

(4-30)

(4-31 )

其中Erfi (X)是虚拟误差函数,Erfi (x)=-i'Erfi (ix),Erfi (x)的导函数为

(4-32)

交易周期的方差为:

(4-33)

其中

(4-34)

(4-35)

由于,以上两式转化为:

(4-35)

(4-36)

4.2.3.4交易信号最优解

交易信号最优的衡量标准不止一种,常见的有期望收益最大化和夏普值 (

最大化。期望收益的目标函数可以写成:

(4-37)

夏普值的目标函数可以写成:

(4-38)

本文的三个模型都只讨论期望收益,因此只使用期望收益最大化模型。求解 期望收益最大化模型,就是找出最优解a和m,使得μ (a,m,c)达到最大值。分别对a,m求导,获得最优解的条件为

(4-39)

解得

(4-40)

5.统计套利实证研究

5.1协整 5.1.1选股

在国泰安数据库中选取2013年1月31日起新的融资融券500标的股的日收盘价,时间范围是2011年1月31日到2013年1月31日。500只股票中有22只上市时间在2011年1月31日之后,这22只票分别是:一拖股份、新华保险、怡球资源、东吴证券、中国水电、中国交建、方正证券、凤凰传媒、吉视传媒、金隅股份、丰林集团、人民网、骆驼股份、中信重工、长城汽车、宁波建工、辉隆股份、贝因美、比亚迪、卫星石化、西部证券和蒙草抗旱。先从列表中排除这22支股票。另外,有一些股票由于各种原因日收盘价缺失较多,影响数据参考价值,在处理数据时将数据缺失超过60日的股票也一并去掉,这些股票分别是上海家化、大名城、安信信托、隧道股份、辽通化工、国海证券和电广传媒。

经过上述处理后,得到2011年1月31日至2013年1月31日488个交易日,471支股票的日收盘价。此时表中仍有缺失数据。根据配对交易原理,个别数据对长期趋势影响较小,但仍选用对趋势影响较小的方法来处理,即以前一个交易日的收盘价代替缺失日的收盘价,保持股票价格走势。将处理好的数据导入matlab。在matlab中,使用corrcoef函数计算对数化后股票价格之间的两两相关系数。根据m at1ab的计算结果,相关系数大于0. 95的股票共有1620对,大于0.98的股票共有69对,大于0.985的股票共有15对。由于篇幅所限,在此不一一列出。

由于数据量大,在结果中选取相关系数大于等于0. 985的共15组股票配对, 结果如下(按相关系数从高到低排列):

从表5.1中可以看出,所有15对股票中,有5对股票属于同行业类股票,占总数的三分之一。这5对股票分别是:武钢股份/鞍钢股份,宁夏建材/天山股份,中国北车/中国南车,锡业股份/江西铜业,南方航空/中国国航。过去的蚊香在研究配对交易时,往往先选择一个行业,再在行业中选择距离最小的股票进行研究,就像配对交易策略初期的时候一样。但表5.1的结果表明,同行业的股票并不一定是相关性最强的。两只配对股票也可能是上下游或者其他相关关系。因此在研究中如果只是选择同行业股票进行配对,则可能漏掉一些优质股票对。 表5.1:相关系数排名前15的股票对

上表中,股票行业分类参照2011年修订的申银万国行业分类标准,采用一级行业名称进行分类。

5.1.2平稳性检验

下面选取相关系数最大的武钢股份和鞍钢股份为例进行平稳性检验及协整。 首先要对各个股票的日收盘价格逬行时间序列平稳性检验。在处理时间序列时,首先要排除非交易日,常用处理方法是将这些日期从序列中直接删除。又由于法定节假日数据缺损会影响到协整和后续的数据处理,因此在导入数据时,也把法定节假日当做交易日来处理,收盘价用前一日收盘价来代替,生成两个一周五天的时间序列。处理后,我们得到武钢股份和鞍钢股份两只股票524天的交易数据.在后续确定套利日期和时长时,仍会把法定节假日从序列中删去。

将数据导入Eviews统计软件,分别对两只股票的交易数据取对数.首先对对数化后的两组数据分别行进ADF检验.Eviews结果显示如下:

表5.2:平稳性检验结果

从上表可以看出,未差分前武钢股份在5%的置信水平下无法拒绝存在单位根的原假设。于是先对数据进行一阶差分,再进行ADF检验结果表明,一阶差分后,在1%的置信水平下仍可以拒绝存在单位根的原假设,即对数化后的武钢股份收

盘价一阶单整。

对对数化后的鞍钢股份数据作同样的处理,发现未差分前鞍钢股份在5%的置信水平下也无法拒绝存在单位根的原假设。于是先对数据进行一阶差分,再进行ADF检验,结果显示一阶差分后,在1%的置信水平下仍可以拒绝存在单位根的原假设,即对数化后的鞍钢股份收盘价一阶单整。

5.1.3协整

由上节可知,两只股票的对数收盘价都一阶单整。接下来使用EG两步法对两列数据进行协整检验。首先对两组数据作回归,结果如下: 表5. 3:回归结果

Dependent Variable: LAGGF Method: Least Squares Date: 03/16/13 Time: 01:49 Sample: 1/31/2011 1/31/2013 Included observations: 524 LAGGF=C(1)+C(2)*LWGGF

可知两只股票的对数价格存在如下关系: LAGGF = 0.065 + 1.307 * LWGGF(5-1)

(0.007 )(0.006)

用Eviews生成残差序列,并对残差序列进行ADF检验,结果如下: 表5.4:协整检验

本文来源:https://www.bwwdw.com/article/knb6.html

Top