很好的计量经济学读书笔记

更新时间:2024-05-20 20:47:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

很好的计量经济学读书笔记

第一章:统计基础 ................................................................................................................................................... 2 第二章:计量经济学总论 ....................................................................................................................................... 7 第三章:双变量回归分析 ....................................................................................................................................... 9

第3.1回归方法 ................................................................................................................................................ 9 第3.2结果检验 .............................................................................................................................................. 10 第3.3回归参数的分布 ...................................................................................................................................11 第四章:多变量回归分析 ..................................................................................................................................... 13 第五章:OLS的基本假设 .................................................................................................................................... 13 第六章:多重共线性 ............................................................................................................................................. 15 第七章:异方差性 ................................................................................................................................................. 16 第八章:自相关 ..................................................................................................................................................... 17 第九章:时间序列分析 ......................................................................................................................................... 19 第十章:面板数据分析 ......................................................................................................................................... 29 第十一章:其他重要的分析方法 ......................................................................................................................... 47

******加权最小二乘法 ................................................................................................................................. 48 ******二阶段最小二乘法TSLS .................................................................................................................... 48 ******非线性最小二乘法 ............................................................................................................................. 49 ******多项分布滞后(PDLS) ..................................................................................................................... 49 ******广义矩估计 ......................................................................................................................................... 50 ******logit和probit模型 ............................................................................................................................ 50 ******因子分析 ............................................................................................................................................. 51 ******Granger因果分析 .............................................................................................................................. 52 ****** 广义线性回归(Generalized least squares) ......................................................................... 52 ******格兰格因果检验 ................................................................................................................................. 55 ******误差修正模型(ECM) ....................................................................................................................... 55 第十二章: EVIEWS ........................................................................................................................................... 55

第12.1节EVIEWS基本操作 ...................................................................................................................... 55 第12.3节EVIEWS时间序列分析 .............................................................................................................. 57 第十三章:SPSS .................................................................................................................................................... 58

第13.1SPSS基本操作 ................................................................................................................................... 58 第十四章:数据分析实战经验 ............................................................................................................................. 67

1

第一章:统计基础

0 常用英文词汇的统计意义 panel data=longitudinal data 是对各个个体进行连续观察的截面数据。回归时的扰动项u=unobserved是影响因变量的其他变量之和,Univariate 单个变量的,如Univariate descriptives 意思是单个变量的统计指标

1 基本概念

统计总体是我们所关心的一些个体组成,如由多个企业构成的集合,统计意义上的总体通常不是一群人或一些物品的集合,而是一组对个体某种特征的观测数据。 参数总体的数值特征描述,如均值、标准差等。

统计量是用样本数据计算出来总体参数的估计值,从一个给定的总体中抽取容量为N的所有可能的样本,对于每一个样本我们可计算出某个统计量的值,不同的样本得到的该统计量的值是不一样的,该统计量的不同的值是不同抽样的结果(根据这些不同抽样计算出的对同一参数进行估计的统计量,可以计算出由各个统计量构成的集体的方差,该方差就是在统计软件中参数后面扩号内的方差),这符合随机变量的定义,因此该统计量也是随机变量,这个统计量的分布称之为抽样分布,它是从同一总体所抽出,同样大小的所有可能样本,其统计量的值的分布,一般情况下是一个正态分布,因为所有的估计值都是对总体参数的近似估计,因而服从以真实值为中心的正态分布,如果总体的分布是已知的则可以根据公式计算统计量抽样分布的分布参数(均值为总体的均值,标准差为总体的标准差与N的比值)。 4在一个样本之中

包含若干个样本点,各个样本点所对应的个体的某种特征是一个变量,不同个体的该变量的取值相互独立,并且服从某种分布,因此根据样本计算的统计量可以看成是若干个独立变量的函数形式,其分布参数如均值、标准差可用数学公式推导。

时间序列是指同一现象在不同时间的相继观察值排列而成的序列,基本上不存在趋势的序列叫做平稳序列,它的各种统计指标不随着时间而变化,在时间序列的散点图中表现为各点分布在一个以均值为中心的条状带中,同一时间序列的因素分析是指区分时间序列中各种不同因素的影响,确定长期趋势(找一条长期的趋势线)、季节变动(确定季节比率)、循环变动和不规则变动。时间序列分析时一项重要的内容就是根据过去已有的数据来预测未来的结果,利用时间序列数据进行预测时,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。

统计决策是指根据样本的信息对总体的情况做出判断。

点估计是根据样本用与计算总体参数相同的法则(如求平均数)+估计总体参数的具体值,因而叫点估计如用样本的平均身高作为总体的平均身高。

区间估计就是点估计值?边际误差,边际误差是根据显著性水平及统计量的标准差,如大样本时在0.05的 水平下边际误差为1.96*标准差。95%置信区间是用样本数据计算出来的对总体参数一个区间估计,保证根据所有样本计算的置信区间中,有95%会把真正的总体参数包含在区间之中,根据不同样本数据对同一总体参数进行估计的相同概率的置信区间不同,根据一个样本计算的对参数进行估计的置信区间是对总体参数的一个区间估计,是总体参数的若干置信区间中的一个,如果继续不断的抽样下去。每个样本会产生一个新的对总体参数的置信区间,如果我们如此不停的抽样下去,所有区间中有95%会包含真正的参数值。

区间的概念提醒我们,因为我们只有样本数据,所以我们对于总体的所有叙述都不是确定的。

变量是说明个体的某种特征的概念,如“受教育程度”、“身高”等,说明事物类别的名称叫做分类变量(categorical variable),如性别就有两个分类变量男、女;说明事物有序类别的一个名称,称为顺序变量(rank variable),如一等品、二等品、小学、初中、大学等;说明事物数字特征并且有米、或者公里、年、吨等度量衡单位的叫做数值型变量(metric variable或者scale variable)是量数据如产品产量

2

年龄等。数值型数据围绕其平均值分布的集中程度称为数据的离差。

根据不同度量可以定义不同的离差,最常用的有全距、标准差等。以变量X的标准差S为单位来度量X与其平均值X之间的偏差的变量Z称为标准化变量,它是一个无量纲量,标准化变量的数值称为标准分数或Z分数。

偏度是一个分布中不对称程度或偏离对称程度的反映,如果分布的频数曲线右边的尾部比左边的长,则称分布是向右偏反之则称分布是向左偏。偏度=(均值-众数)/标准差。峰度是分布陡峭程度的反映,通常是相对于正态分布言,其值叫做峰度系数,用四阶中心矩与标准差的四次方的比值表示。

变异系数是指变量的标准差与平均值之比。 相关系数反映两个变量之间线性关系的强弱。

假设检验分为参数检验和非参数检验,前者是指对总体分布函数中未知参数提出某种假设,然后利用样本信息对所提出的假设进行检验并做出判断,参数检验需要样本所依赖的总体的分布作出一系列假定如总体服从正态分布且标准差相等,但实际情况中,上述的假定不一定完全合理,或者在应用中对这些假定有怀疑,因此统计学家设计了许多与总体的分布及相关参数无关的检验方法,称之为非参数检验。如一个人号称罚球命中率为80%,为了检验他是不是吹牛皮,于是让他现场投20个球,这就是显著性检验,结果他只投进了4个,计算得在命中率为80%情况下,投20个只进4个的概率为0.2%,则此0.2%就是通常所说的P值。如果P值很低(通常小于5%)则可以拒绝原假设。假设检验是为了比较两个值是否有显著的差别,在很多情况下我们给出一个原假设仅仅是为了拒绝它,因此原假设通常是与数据表面所显现出来的现象的相对立的现象。在假设检验中研究者如要确定某参数是否等于某个值须用双尾检验,如检验零件直径是否等于10;如果要确定参数大于或小于某值则用单尾检验如检验奶粉中蛋白质的含量是否大于30%。两者的区别仅仅在于拒绝域不同。在做假设检验时犯第一类错误(原假设正确却遭到拒绝)的最大概率称为显著性水平,显著性水平越高则表明限制条件越严格,在正态分布图豉肚部分的面积越小同时两侧的阴影部分的面积就越大,原假设被拒绝的可能性就越大,回归结果中某系数的精确显著性水平越高则越有可能接受原假设,即系数越有可能为0,系数在越高的显著性水平下显著则越有可能接受原假设即系数越有可能为0,系数不为0的可能性越小,在越低的显著性水平下显著则表明系数不为0的可能性越大。

假设一个统计量(如灯泡寿命)A服从均值为μ标准差为δ的正态分布,则(A-μ)/δ叫做Z分数(也叫标准化变量),它服从均值为0标准差为1的标准正态分布。t统计量是模仿Z分数而建立的,区别在于后者用于小样本标准差未知的情况下的均值检验而前者用于大样本标准差已知情况下的均值的检验(Z或t统计量计算公式中的μ都取原假设中的值),此时作为分母的是s/N?1代替(s为样本标准差),也就是用多个变量的均值的标准差代替,因为该统计量是根据样本的均值计算而得,也是用于均值的检验。T和Z检验用于检验回归方程中某个自变量的系数是否为0,F检验用于检验是不是所有的系数都为0。

方差分析用于从方差的角度比较两个或多个总体的均值是否相等,研究分类型自变量对数值型自变量是否有影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响,如行业不同是否对受到投诉的数量有影响,行业是称为因素,旅游、零售、家电具体的行业叫做因素水平(在SPSS中相当于一个VARIABLE的不同的值)。计算旅游、零售、家电各行业各自的标准差,然后平均得到组内方差,并认为组内方差是完全是由随机因素造成的,根据各行业的各自的平均值与总均值之差的平方和得到组间方差,并认为组间方差是由于不同的因素水平所造成的,如果各因素水平对因变量(投诉量)无影响,则组内方差与组间方差应该相等,或者说两者的差别在统计上是不显著的,组间与组内方差之比是一个F统计量,通过检验这两个方差的差别是否显著来判断不同行业接受投诉量的均值是否有明显差别。

17 描述性统计量是对(相当于SPSS中的)某一变量特征进行描述的一些统计指标,均值是对一个变量的中心位置的度量,其计算方法是先加总所有CASE的值然后除以数据的个数,其应用如应收帐款的平均帐龄为45天。中位数是对中心位置的度量,它是当CASE按照升序排列时,处于中间位置的CASE的变量值,它是对均值的补充,如在年度收入和资产价值数据的报告中,这是因为个别异常大的收入或资产

3

价值能够使均值膨胀,此时中位数是对中心位置的更好的度量,如应收帐款的帐龄的中位数为35天表示超过一半的应收帐款帐龄的天数在35天以上。众数也是对均值的补充,是在各CASE中出现频率最高的数据的值,如应收帐款帐龄的众数为31天,表示应收帐款最普通的帐龄为31天。四分位数是先把数据进行升序排列,然后把数据依次分为四段,每段含有25%的观察值,中间的三个分段点从小到大分别称为第一二三四分数点,如帐龄的第一四分数点为12天表示有25%的CASE的帐龄小于12天有75%的CASE的帐龄大于12天。极差是各CASE的某变量值的最大和最小值的差,该指标容易受异常值的影响,很少单独用来表示变异程度,如帐龄的极差为18表示最长的帐龄比最短的帐龄多18天。方差是利用所有的CASES对某变量值的变异程度的度量,在单位相同时可以用于比较两个变量的变异程度,可以用来度量与股票投资相关的风险,它给出每月收益如何围绕和期平均收益波动。如零件的尺寸的标准差表明了生产加工技术的稳定性。变异系数是标准差与均值的比值,常用于比较变量的变异程度,如A加工零件尺寸的变异系数为15%,而B为10%,表明A加工技术要比B稳定。切比雪夫定理认为与均值距离在Z个标准差以内的CASE例至少为1-1/Z,一般情况下68%的数据与均值距离在一个标准差以内,95%的数据在2个标准差以内,几乎所有的数据都在3个标准差以内,以上所述可以用于异常值的检测,然后确定异常值是否正确。

4 参数检验分为一个总体参数的检验和两个总体参数的比较检验,前者是为了确定某一总体的参数是不是某一个值,而后者是为了比较两个总体的参数是不是相等。检验(z检验和T检验)什么参数则需要根据样本计算什么参数的值及该参数的标准差(δ/N或S/N),如要检验均值是否为某个值则需要根据样本计算样本均值及样本均值的标准差。

5大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化,我们可以用 “平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。

6概率分布是关于总体的概念。有了概率分布就等于知道了总体。

6统计中各种常用分布

①CHI-SQUARE分布, 一个正态分布的变量的平方服从自由度为1的CHI-SQUARE分布,K个独立的正态分布变量的平方和则服从自由度为K的CHI-SQUARE分布,在统计中CHI-SQUARE的自由度的意义是独立观察值的个数K,自由度是卡方分布的参数就像均值和标准差是正态分布的参数一样,如样本中每个灯泡的寿命服从正态分布,则5个灯泡的寿命的平方和服从自由度为5的卡方分布。CHI-SQUARE可以用于总体标准差是否为某值的假设检验。

②T分布,X来自一个正态总体样本,则变量

服从T分布,其中U是总体的均值,S是样本

2方差,N是样本中样本点的数量,自由度为N-1,T统计量是根据样本数据计算而得。

③F分布,两个相互独立样本的样本方差之比在代入样本数据之前叫做F变量,代入样本数据之后叫做F统计量,服从F分布,F统计量经常用于比较两个样本的方差是否相等的假设检验,分子分母的样本方差的计算公式分别为

,记为F(M-1,N-1)。另外它也可以用于检验拟合优度

的显著性此时

2,n是观察值的个数,k是包括截距在内的解释变量的个数。F-分布变

2量为两个x-分布变量(在除以它们各自自由度之后)的比;而两个x-分布的自由度则为F-分布的自由

4

度,因此,F-分布有两个自由度;第一个自由度等于在分子上的x-分布的自由度,第二个自由度等于在分母的x-分布的自由度。

④二项分布,二项试验是指把相同的试验进行N次,并且每次试验只有两种可能的结果,单次试验成功的概率为P,每一次试验都独立进行,如果对于卖保单的例子,如果随时间推移推销员疲劳并失去了热情,则不能保证“单次试验成功概率为P”。在一个二项试验中,我们关心的是在N次试验中出现成功的次数,如果以X表示N次试验中成功的次数,我们可以看到X可取的值为0、1、2??N因为值的个数是有限的,故X是离散型随机变量,与该随机变量有关的概率分布叫做二项分布(属于离散型),如果知道每个顾客进店买某商品的概率和进店顾客的数量(根据以往的经验取得),则可以估计每天需要的货量。二项分布是指做有限次只有两个结果的试验中,实验成功次数为B的概率,泊松分布是指做无限次只有两个结果的试验中,实验成功次数为B的概率。

⑤泊松分布,泊松试验是指事件在任意两个等长度的区间内发生一次的概率相等,并且事件在一区间发生与否与其他区间独立,则事件发生的次数服从泊松分布(属于离散型)。在已知一个区间内事件发生次数的平均值μ时,事件在一个区间内发生X次的概率为μ

x22e

??/x!,花旗银行用此公式计算1分钟内

到达某ATM机的人数为2及以上以上的概率以确定是否增加ATM机的数量。 7

8对于连续型随机变量X,a下侧分位数(又称为a分位数,a-quantile)定义为数x?,它满足关系

p(x?x?)??。上侧分位数定义为满足关系p(x?x?)??的x?。通常用z?表示标准正态分布的a上侧

分位数,即对于标准正态分布变量Z,有p(z?z?)??。

一个由正态变量导出的分布是x-分布(chi-square distribution,也翻译为卡方分布)。该分布在一些检验中会用到。n个独立正态变量平方和称为有n个自由度的x-分布。

正态变量的样本均值也是正态变量,能利用减去其均值再除以其(总体)标准差来得到标准正态变量。但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t-分布(t-distribution,或学生分布,Student’s t)。

9判明一个事情的真伪,需要用事实说话。在统计中事实总是来源于数据。假定某药厂声称该厂生产的某种药品有60%的疗效。但是当实际调查了100名使用该药物的患者之后,发现有40名患者服后有效。这个数据是否支持药厂的说法呢?药厂所支持的模型实际上是一个参数为0.6的Bernoulli试验模型。100名患者的服药,实际上等于进行了100次试验。这就是二项分布B(100,0.6)模型。由于使用了药厂的0.6成功概率。这个模型是基于药厂的观点的。可以基于这个模型计算100名患者中有少于或等于40名患者治疗有效的概率。通过计算(或查表,后面会详细描述)易得,在药厂观点正确的假定下,这个概率为0.000042。这说明,如果药厂正确,那么只有40名患者有效这个事实是个小概率事件,即“少于或等于40名患者有效”的可能性只有大约十万分之四。这样在药厂的观点和事实之间有了矛盾。是事实准确还是

5

22

药厂准确呢?显然人们一般不会认为药厂的说法可以接受。这样,就利用小概率事件来拒绝了药厂的说法。 这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础。

5 建模是一个建立估计回归方程的过程,经过这一过程,我们可以得到描述一个因变量和一个或多个自变量之间关系的估计回归方程。建模的主要结果应该是找到合适的函数形式来描述变量之间的关系,并且选择该模型所应包含的自变量。

6 假设检验中的原假设是从数据表面所显现出来的现象的相对立的现象。

7 假设检验时T、CHI-SQUARE、F、Z都是以正态总体的样本为基础的统计量,在代入样本的观察值以前叫做变量,服从抽样分布,并且它们的分布事先已知。只所以要用这些统计量是因为它们可以根据样本很容易的算出,然后可以比对在原假设正确的条件下取得该(T、F、Z、CHI-SQUARE)值的概率(P值),如果该概率小于确定的显著性水平,或者在无预先确定的显著性水平下小于5%,则拒绝原假设,否则接受原假设。也可以与确定的显著性水平下的Critical value相比对,如果大于Ccritical value则拒绝原假设。

8 假设检验中最重要的就是根据要检验的参数构造一个其分布情况已知的统计量,第二步是根据统计量的分布及事先人为规定的显著性水平确定一个大概率事件和小概率事件(大概率事件是指根据样本计算的统计量与原假设值距离在一定范围之内,小概率事件是指根据样本计算统计量与原假设值的距离在一定范围之外),第三步是根据样本统计量看是小概率事件发生还是大概率事件发生,如果大概率事件发生则原假设正确否则拒绝原假设。

9 无论是Z检验还是t检验归根到底都是要在一定的显著性水平下看根据样本计算的统计量与原假设值距离的远近,当然此距离是以标准差来计量,当此距离超过某一标准则认为原假设不正确,此标准是根据显著性水平通过查表来确定。越显著也就是显著性水平越高,检验标准越严格,接受原假设的区域越窄,如果要接受原假设则要求抽样值离原假设值越近,如0.1的显著性水平下要接受原假设要求的抽样值比在 0.05水平下接受原假设要求的抽样值离原假设值近。

14 协方差是二元变量(X,Y)中X 和Y之间线性关系强弱的度量指标,在统计中用于度量两个变量间线性关系的强弱(因此SPSS的COVARIANCE MATRIX用于观察在度量单位相同的条件下各变量间相互关系的强弱),是根据样本点计算而得,其定义式为

,但是这个定义式用于样本协

方差的估计是有偏的,协方差的无偏估计量,如果协方差为大

的正值则表示存在强烈的正相关关系,如果协方差为大的负值则表示存在强烈的负相关关系,但是用协方差作为线性关系强度的度量指标时,存在的一个严重问题是协方差的值依赖于X和Y的度量单位,如使用厘米为单位计算的协方差要大于使用米作单位计算的协方差。为避免这种麻烦用相关系数代替,相关系数

的计算公式为。自变量和因变量之间的相关系数与用OLS回归方程中自变量的

系数不是一回事后者的计算公式为,但是两者的符号是相同的。

15 为什么协方差能表示线性关系的强弱呢?因为如果以

X=X和Y=Y将散点图分为四个象限,如果协方差为正,则对他有最大影响的点一定在一和三象限,因此协方差为正值表示X与Y之间存在正线性关系.也就是说,当X增大时,Y的值也增大.如果协方差为负,对它有

6

最大影响的点一定在二四象限。因此协方差为负就表明X和Y之间存在负线性关系。也就是说,当X的值增大时,Y的值减小。最后,如果各点是均匀分布在四个区域内,则协方差的值将接近于零,表示X和Y之间不存在线性关系。

第二章:计量经济学总论

1计量经济学的内容框架,包括最小二乘法基本原理、最小二乘法的假设条件和不满足假设条件时的处理办法三个大的部分。

最小二乘法的基本原理包括参数估计、估计参数的性质(BLUE)、估计结果的统计推断。首先是OLS的原理,即最小二乘法是找一条线,使样本点与线之间距离的平方和最小,具体做法是首先假设一条线,然后求得用这条线的参数表示的距离的平方和,然后用求距离极值的一阶条件,求出这些参数,就得到了最小二乘法的估计结果,得到结果后就是对结果的统计推断,包括可决系数、T检验、F检验、以及假设条件是否满足前提假设的检验。

最小二乘法是在一系列假设的基础上进行的,这些假设主要是关于自变量与因变量关系、自变量间的关系,自变量与扰动项的关系、扰动项之间的关系。

接下来讨论的就是假设不满足的条件下的回归分析,包括的主要内容有非线性模型的线性化、特殊变量、异方差、自相关和多重共线性(概念、检验、原因、影响和处理办法)。

******最小二乘法的基本原理

最小二乘法是估计变量间相关关系的一种方法,变量间的相互关系总本而言有两种,其一是函数关系,其二是相关关系,变量间相互依赖相互影响,但是变量间所表现出的却不是确定的函数关系,如图,影响Y的因素除了主要有X之外,还有若干不重要的因素,把这些不确定的因素归并到一个变量中,建立变量之间关系的数学模型Yi?a?bXi?ui,在这个数学模型中,a和b是有待估计的系数,最小二乘法就是估

?,然后把各个样本点??bX计系数a和b的一种方法,具体的原理是,首先令X和Y之间的关系为Yi?ai?为参数的表?,此Y?是以a?和b的自变量值代入该式,计算出对应于各样本点的自变量Xi的因变量的值Yii?为参数的二元函数,接下来为?的差的平方和,该平方和是以a?和b达式,然后计算各样本点对应的Yi与Yi?的估计值就要求这个二元函数对a?的偏导数,然后利用函数求极值的一阶条件,令二个?和b?和b了得到a?的估计值,体现在图中是什么意思呢,就是找到一条最佳的线,?和b偏导数分别等于0,然解方程组得到a???的估计值分别为a?X,和b?和b??Y?b使各样本点到该线的纵向距离的平方和最小,求得a?xy?xi2ii,

?后估计a?,这两个式子中xi表示第i个样本点的自变量值与由这两个估计式的形式可以发现,要先估计b各样本点的自变量的均值的差,

?表示加和,这是最简单的一元线性回归模型的估计方法,也是最小二

乘法的一个最简单的应用,对于多变量的最小二乘法与此基本一样。其中最关键的一点是通过求极值条件,

将各个样本点所代表的自变量和因变量关系转化为关于估计系数的方程。

7

通过最小二乘法把a和b的值估计出来以后,接下来一个问题就是估计结果的准确性了。

①a和b的准确性,由各样本点得到的a和b的估计值,只是根据抽样得到的样本点计算的,不一定就是真值,要得到真值就必然根据总体中所有的样本点进行估计,而这通常是不可能的,如对于灯炮内所充惰性气体的量与灯泡寿命的关系,不可以把所有的灯泡都拿来做试验,这在经济上是不可行的,我们所能做的只是根据其分布情况进行统计推断,看看这个统计量是不是无偏的,有效的。所谓无偏就是估计值的数学期望等于真值,其含义可以近似的理解为当我们对做若干次试验后得到的估计值的均值就是真值,即Y和X的真实的关系。有效性就是估计值的方差最小,通过概率分析可以知道,OLS估计量是具有BLUE的性质。

②a和b的显著性,根据概率论的知识可知,a和b是服从t分布的,并且其方差也可以根据概率论的知识计算得到,可以根据样本计算出a和b的t值,看估计得到的a和b是否具有统计显著性。

③a和b估计出以后的另一个问题是看这个方程的显著性和对Y的变化情况的解释力,这要通过F值和R来判断。

④最后,还要回过头来总体的看一下这个回归的结果,首先就是要问你怎么知道X和Y之间就是一种线性关系,如果不是线性关系,又该怎么办。这也就牵扯到最小二乘法的假设。从假设可以演生出计量经济学的其他的主要内容。

1 回归分析研究 一个变量对另一些变量的依赖关系,但他并不意味着因果关系。

2虚拟变量是指定性变量或者分类变量。

3在进行时间序列数据分析时首先要验证数据的平稳性,平稳是指一个时间序列的均值和方差在时间上都没系统性的变化,要看一时间序列是否平稳,可以计算一个时间段上的均值和方差然后与另一时间段上的均值与方差比较,如果相等则平稳否则不平稳。

4面板数据的缺点是异方差性,即样本中的样本点不是一帮人,相当于不能把苹果和桔子混同起来,如果必须把两者放在一起考虑如看水果的重量与光照的关系,可以加一个虚拟变量用以曲别苹果和桔子两种水果,时间序列数据的缺点是平稳性问题。

5通过经济数据了解经济变量的变化规律有时是存在相当大的局限性的,所以在建立模型时,必须依靠经济理论,同时对参数进行假设检验。

******不同回归方法的选择

在决定使用各种具体的回归方法之前,首先用OLS进行一下回归,然后根据回归的结果考察使用哪种具体的方法进行回归。

8

2第三章:双变量回归分析

第3.1回归方法

******回归模型Y?a?bx中Y是一个数学期望的概念,解释变量x取某一个确定值xi时(在回归模型中

xi不是随机的而是确定的值),因变量由于扰动项的原因可以取得若干个值,可以认为对应自变量xi的因

变量是一个随机变量,回归模型中的Y是在自变量取xi时因变量所有可能取值的数学期望,因此在回归模型中的Y?E(Yxi),根据回归方程每一个因变量的值可以分为数学期望和扰动项两部分的和。

3 线性回归方程Y=B1+B2*X1的完整表示应该是E(Y|Xi) =B1+B2Xi,E(Y|Xi)表示给定X值相应的(或条件的) Y的均值,也就是说回归方程的因变量的值是当解释变量为某个值时因变量所有可能取值的均值。

4线性回归方程的线性有两方面的含义,其一为解释变量线性,其二为系数线性,也就是说方程右边只能是系数与解释变量的乘积,其中的任何一个都不能是任何的函数形式。

1在一般的情况下,回归模型中要含有截距项,这样做有如下两点好处,第一,尽管模型中含有截距项,但若该项的出现是统计上不显著的,则可以认为回归结果是一个过原点的回归模型。第二,如果实际模型中含有截距而我们的回归模型中无截距则我们的模型就有了设定模型错误。因此模型中要含有截距项。

2在双变量模型中,如果因变量与自变量的单位都是货币,那么以元为单位与万元为单位的回归结果中的斜率是相同的,不同的是截距项要根据度量单位的变化而相应的扩大或缩小计量单位之间换算比例倍,如果因变量与自变量单位不同,一个是元一个是公斤,那么换成吨后的斜率将会发生变化。

3双对数log-log模型是指等号两边的变量都采取对数的形式,如lnYi?a?blnXi?ui,这个模型用于估计因变量对自变量的弹性,系数b就是就表示Y对X的弹性。

4log-linear模型是指等号左边是logY,等号右边是bx的形式,如lnYi?a?bXi?ui,用于测量X变化1时Y变化的百分比,其大小为b,当X表示时间时,b为因变量的瞬时增长率。

5linear-log模型是指等号左边为Y,等号右边为bLnXi的形式,如Yi?a?blnXi?ui,用于确定X变化1%时,Y变化的绝对量。

6回归系数的方差var(b1)、var(b2)的计算,每一个样本点都可由一个向量表示,该向量的分量由自变量和因变量构成,自变量和因变量相当于一个样本点的坐标,自变量是确定的值,因变量的数值是由自变量的值和扰动项决定的,对于每一个样本点在回归之前解释变量和因变量的关系虽然是未知的,但却是确定

9

的,因此,因变量的分布是由扰动项的分布决定的,根据扰动项的分布可以计算出因变量的分布,而回归的系数是由各样本点的自变量和因变量值确定的,因此,可以根据因变量的分布来计算出回归系数的分布,从而计算出这些系数的期望和方差。

7在计量中一个向量如无特殊说明都是指列向量。因为,通常情况下每个观察点都有一个自变量和因变量的关系方程,放在一起,各个变量对应一个列向量。

4在回归模型中,解释变量是确定的,对应每一个解释变量的值,因变量都是一个随机变量,因变量序列中有多少个CASE则对应的有多少个作为随机变量的因变量,只所以是随机变量,是因为扰动项是随机变量。

2用最小二乘法估计的方程的系数是线性无偏一致最小估计量,最小是指方差最小,极大似然估计法也是估计方程系数的方法但其结果是有偏的不如最小二乘法的结果好。

第3.2结果检验

由于回归的结果是根据样本计算出的估计值,因此必须要检验其统计可靠性,统计可靠性的检验分为系数可靠性的检验和方程可靠性的检验,前者主要是t检验,后者主要是F检验和R,进行统计检验的前提条件就是要知道待检验变量的分布情况,这也是3.3的主要内容。

******对于一个样本总体因变量和自变量之间存在着一个总体回归函数,即在样本中包含总体中的所有的点时自变量与因变量之间的关系,这种关系是肯定存在的,但是由于在样本中不可能包括总体中的所有点,只能根据样本回归函数来代替总体回归函数,并且根据样本数据回归出的样本回归函数只能是总体回归函数的一个近似,并且不同的样本得到的样本回归函数不同,这就使得回归函数中的系数可以取得若干个值,因此就有了在SPSS回归结果中的某个回归系数的方差指标的由来,不同的样本回归函数对样本中因变量与自变量的关系的解释力不同,解释力的大小用

2R2指标来衡量。

******因变量各个值与其均值的离差的平方和TSS可以分解为估计的Y值围绕其均值的离差的平方和ESS加上残差的平方和RSS=?ui,即TSS=?yiESS+RSS=b?xi??ui,即因变量的观测值围绕其均值的变异可以分为两部分,一部分来自回归线,这部分相当于固定的,另一部分来自随机势力,回归结果好坏的统计指标R?222222ESS2,当两个模型的因变量不同如一个是Y另一个是LnY时R不具有可比性。 TSS

1置信区间是在区间估计时用到的一个概念,求一个参数的置信区间首先根据样本计算出该参数的点估计值,然后再加减对应显著性水平的一段区间,这段区间通常是根据样本计算出的标准误的多少倍,具体多少倍要根据显著性水平确定。

10

2在用OLS等方法估计出系数的数值后,还要检验一下这个点估计值是否是真值为0的情况下的一个随机值,也就是这个估计值可以在真值为0的情况下由于扰动项的原因而出现,如果检验的结果是估计值不可能在真值为0的情况下由于扰动项的原因而出现,那么就认为估计值是显著的。检验方法有两种,一种是置信区间检验法,即看在真值为0,标准误为根据样本计算出的标准误的情况下,根据显著性水平确定一个置信区间如果,估计值落在置信区间的外面则拒绝原假设认为真值不为0,估计值显著,由于显著性水平越低时对应的置信区间越长,因此在越低的显著性水平上拒绝原假设则估计值的显著性水平越高;第二种方法是T值和F值检验法,如果根据估计值和原假设值以及标准误计算出的T值或F值大于在规定显著性水平下,由T值或F值表查出的值,则拒绝原假设认为估计值是显著的。

3统计显著的概念 在统计学中,当我们拒绝虚拟假设时,我们说我们的发现是统计上显著的,反之,我们不拒绝虚拟时,我们说我们的发现不是统计上显著的。

4根据原假设和调查数据估计出的系数计算出的该系数的t值越大,表示离原假设中该系数的假设值越远,越应拒绝原假设,估计的系数越显著。t值可以理解为估计值距离原假设值几个标准误的距离。

5方差分析(ANOVA, analysis of variance)是指对因变量与其均值的离差的平方和TSS的构成部分进行分析,给出的最终结果是F值,以及这个F值的精确显著性水平,F值是ESS除以其自由度1与RSS除以其自由度n-1的比值,如果F值大于由F值表中查到的在参考显著性水平下的临界值,或者是这个F值的精确显著性水平小于参考的显著性水平,就认为F值显著,表明估计方程中所有参数不能同时为0,估计方程有意义。

第3.3回归参数的分布

最小二乘法的回归结果,都是根据样本的自变量和因变量估计的,根据假设可知样本的自变量是确定的数值,样本的因变量的数值为Yi?a?bXi?ui,其中的a和b代表X和Y之间关系的系数的真值,虽然不知道但却是一个确定的数值,Xi是已知的确定数值,Yi是与ui服从相同分布的随机变量,因此,根据样本的自变量和因变量值估计的系数和残差也是服从一定分布的,在假定ui服从正态分布的条件下,这些估计量都是服从正态分布的。

******回归系数的估计值及其分布

根据样本用OLS可以估计线性回归方程Y?a?bX?u的系数a、b,它们是根据样本数据计算而得,

? ?、b因此a、b是样本统计量,其无偏估计值分别为a??cov(X,Y)?bVar(X)X?X?(X?X)(Y?Y)??????(X?X)?(X?X)?iii2ii?Y 2??i?? ??Y?bXa

11

在上面的表达式中Xi和X是已知的自变量的数值,是确定的(根据假设A5),因此

Xi?X是确定的2?(Xi?X)常数,而Yi?a?bXi?ui,其中a和b虽然是待估的系数,但确是一个确定的数, Xi也是确定的数,而ui?是若干个Y的线性组合,是服从正态分布的变量,因此Yi是服从正态分布的,并且其分布密度由ui决定,而bi?也服从正态分布,其方差为var(b?)?因此b如下:

?(X?u2i?X)2,其均值根据无偏性为真值b。其具体的推导过程

??KY?K?a?bX?u??aK?bKX?Ku b?ii?i?i?ii?iiii?Ki??而

xi?xi?0??xi2?xi2X?xixiXi?xi(xi?X)?x????1222xxxx?i?i??i2i2i

?KiXi????b?所以b?Ku

ii?)?var(b?于是var(b?Ku)?var(?Ku)???Kiiii2u22i

?xi?xi2xi?2??其中Ki?、?Ki???22?2??2x?xi??i???xi?1、xi?Xi?X 2x?i?u2?因此,var(b)? 2?xi?)??服从正态分布,a?的方差为var(b同理,an?(Xi?X)?u2?X2i2,其均值为真值a。

在实际计算时u的方差是无法得到的,只能用残差的方差代替。

******回归残差的估计值及其分布

?的线性组合,因此也服从正态分布,残差e?Y?Y?是服从正态分布的变量a??a??和b??bXYi的估计值Yiiiii?的线性组合,因此,也是服从正态分布的。残差的方差的估计值为是正态分布的变量Yi和正态分布的变量Yi??2u?e?2in?2

******回归的真值和估计值

12

?表示,两者不同,真值就是一个具体的数值,?和b回归方程系数的真值用a和b来表示,估计的系数用a而估计值由于是根据样本估计出的,因此,估计值是服从一定分布的随机变量。

第四章:多变量回归分析

1当回归模型中因变量和自变量各有一个时,回归方程中的系数叫做回归系数,当自变量多于1个时,回归方程中的系数叫做偏回归系数,表示在其他变量保持不变时某个自变量变化1单位所引起的因变量变化的大小。

2多自变量回归模型中可能面临多重共线性问题,即各个解释变量之间是线性关系,当各个变量之间不是线性关系而存在着其他关系时,模型不面临多重共线性的问题,多重共线性是模型设定时各个变量间的相互关系导致的问题,异方差性是由于样本数据扰动项的方差不同面而导致的问题。

3一般情况下只要解释变量的数量增加估计方程的R就要增加。adjusted R是考虑自变量个数的拟合集成度的判定标准。

4偏相关系数用于衡量在多个自变量的回归模型中,其他变量不变时两个变量间的相关性的大小。

1时间序列分析时应引入一个时间或趋势变量。

2在SPSS回归结果中F值对应的原假设是所有的系数同时为0,对这样一个假设的检验被称为对所估计回归线的总显著性检验,检验Y与所有自变量有线性关系。

3要看因变量与自变量之间的关系是否随着时间的发展而改变,即由Yt?a?bXt?ut变为

22Yt?c?dXt?ut,用周检验。

第五章:OLS的基本假设

1OLS的估计量a和b都是扰动项

u的线性函数,因此OLS的估计量a和b的分布依赖于u的概率分布

ii状况,通过样本估计出a和b是为了对总体的a和b进行推断,而在推断之前必须要知道a?Y-bX、

b??xiyi这两个统计量的分布情况,而a和b都是扰动项ui的线性函数,因此对ui的分布情况做出假2?xi定后就知道了a和b的分布情况,

u正态分布时a和b也正态分布。

i13

2

u代表自变量取x时所对应的扰动项,它是一个变量可以取多个不同的值,服从一定的分布,因为自

ii变量为

x时因变量可以取多个不同的值,

i

******OLS基本假设

这些基本假定总体上可以分为两大类,即针对各个变量之间关系的假定和各个CASE之间关系的假定,各个变量之间关系又可分为三小类,一类是自变量之间的关系A2,如果有则去掉一些变量,另一类是因变量和自变量之间的关系A5,A5说明因变量不影响自变量,只有自变量对因变量的影响,即没有内生性的问题,第三类是自变量与扰动项之间的关系A7,如果不满足则用二阶段最小二乘法和工具变量法;各个CASE之间的关系A3、A4和A6,A3和A4要求各CASE的扰动项之间是独立同分布的,A6表明使用时间序列进行回归时数据要是平稳的,没有趋势。

A1:因变量与自变量之间呈线性关系即:y?X???,在每一观察点都有yi?xi????i。

A2:无多重共线性,解释变量之间无线性相关关系,即矩阵X是n?k矩阵,并且秩k。

A3:各观察点对应的扰动项的期望或均值为零(每个观察点都对应一个扰动项变量,不同观察点的扰动项是不同变量,可以有不同的分布参数,此处假定各个扰动项的期望都为0)即E(?iX)?0。 A4:无异方差性,各个观察点对应的扰动项的方差相同都为一常数,并且各扰动项之间的协方差为0,即对于所有观察点i都有var(?iX)??2 并且cov(?i,?jX)?0,在残差图上表现为残差不是分布于以0为中心的一条带上,而是呈现喇叭口等形状。

A5:各观察点自变量是确定的值并且已知,即矩阵X已知。

A6:无自相关,各个扰动项都独立服从期望为0方差为?的正态分布,即向量?X服从N(0,?2I),由于I是一个单位矩阵所以?I即表明各扰动项的方差为?,也表明扰动项之间协方差为0, A7:自变量与扰动项不相关,

******假设是否满足的检验方法 A1: A2: A3: A4: A5:

A6: 扰动项之间如自相关,在残差图上表现为一个大都大,一个小都小,像老鹰捉小鸡游戏中小鸡的行动一样,其存在于否的检验主要靠DW值,DW值如果比较严重的偏离了2则表明有自相关问题的存在。

A7:表现为残差图中残差的大小随着自变量的大小而有规律的变动。

******假设不满足时的处理方法

14

222 A1: A2: A3: A4: A5:

A6:自相关的处理方法主要是把自变量和因变量同时减掉自身的DW2倍,然后对减掉后的因变量和自

变量的关系进行回归。

A7:如扰动项与自变量相关则用二阶段最小二乘法处理,

残差提供了有关扰动项的最佳信息,因此对于残差的分析是判断以上假定是否满足的基础,各种残差图直观的描述了残差的基本特征,如果假定对所有的X值e的方差都相等并且假定的X与Y之间的模型是合理的,则残差图中的所有点都应落在以0为中心的一条水平带中,并且大多数落在距离均值两个标准差的范围以内。关于自变量的残差图和关于预测值的残差图适用于A3;关于自变量的标准残图和残差的P-P图可以判断A6,因为如果是正态分布则95%以上的标准残差应该在-2—+2之间;在使用OLS时得到的残差均值肯定为0,因此残差不能提供关于是否满足A2的信息。A4可以通过残差的自相关图判断。

var(?iX)??2中的X表明在已知的观察点数据的基础上,var(?iX)??2是说在观察点数据的基础

上第i个扰动项的方差为?。

A5表明自变量不能受因变量的影响,即自变量不能具有内生性,自变量影响因变量而因变量不能影响自变量。

4 为什么要有这些基本假设

使用最小二乘法根据各个样本点计算出各个回归系数之后,还要对回归系数进行统计推断,而进行统计推断的前提是要知道这些回归系数的分布情况,表明分布情况的最重要参数就是期望和方差,回归系数的期望和方差会受到假设中的相互关系的影响。vara(?)2varu(?)Xi2 vYa?r(?bX)2n?(Xi?X)2E(a)=E(Y-bX),

var(b)?var(?(X?X)(Y?Y))?var(var(u)?(X?X)?(X?X)iiii),

(X?X)(Y?Y)?E(b)?E()由以上两个式子可以看出,估计量的数学期望和方差要受到自变量关系、

?(X?X)iii自变量与扰动项关系以及扰动项的分布情况的影响,为了保证回归结果的无偏及有效性以及统计推断的需要而做出一些基本的假设。

第六章:多重共线性

1多重共线性是模型设定时的问题,是指模型中的解释变量之间有线性关系,如果解释变量之间不是线性

15

关系则不属于多重共线性问题。

2在完全的多重共线性时回归系数无法确定,并且标准误无穷大;如是非完全的多重共线性则可以确定回归系数但是标准误会较大,不能精确的估计标系数的大小。会出现回归方程的R很大,而没有几个自变量的系数是显著的,因为多重共线性会使标准误增大较易接受原假设。OLS回归结果仍是线性无偏一致,但不是方差最小的有效估计量。

3多重共线性的检验,不存在专门的检验方法,但可以通过回归结果反映出来,如R很大而没有几个自变量的系数是显著的、解释变量间相关系数和偏相关系数大、

4多重共线性的补救,合并具有高相关性的解释变量、剔除具有高相关性的变量使之仅剩一个,如事先知道x1是x2的2倍则可以将x1换为2x2,多重共线性并不一定是坏事,如果回归分析的目的是预测,则多重共线性不是一个严重的问题,R越大预测越准确,如果要考察因变量与自变量之间的相互数量关系,则多重共线性就是一个问题。也可以用因子分析和主成分分析等对原来的自变量进行分析综合正交化来消除变量间的相关性。

11 完全的多重共线性是一个很严重的问题,使得线性回归无法进行,但是非完全的多重共线性却是在实际中普遍存在的问题。在实际中多重共线性可以使OLS估计量的方差和标准差变大,从而也使置信区间变宽了,但OLS估计量相对于其他的估计方法而言仍是最优的,可以使回归方程的

较高但是T 值并不

222都显著,同时使OLS的估计量及其标准差对样本数据非常敏感,有时使回归系数的符号有误。多重共线性可以根据前述的现象判断还可以通过解释变量之间的相关系数表来确定。但是多重共线性的存在并不就是一个坏事情,这取决于研究的目的,如果是要确定模型用于预测则不一定是坏事情,因为多重共线性并不会很严重的影响整个方程的解释力即坏事情。

,但如果是要精确的确定方程中的各个系数数则多重共线性是一个

第七章:异方差性

******异方差性的概念

异方差性是指对应不同的自变量的值,扰动项的方差不同,违反了OLS假设中的扰动项具有相同方差的假设,如随着人们收入的提高,人们的备用收入将会有更大的选择范围。异方差性可能是由于数据采集技术的提高使?减小,也可能是由于异常值的出现而造成,也可能是由于边干边改进而导致。

******异方差性的来源

异方差性的直接来源是对应各个自变量Xi的扰动项ui的方差不同,造成扰动项方差不同的原因可能是回归模型中忽略的解释变量的影响,也可能是样本点中的数据具有本质性的差别,如穷人和富人各自月支出的方差就有本质的不同。

16

2

******异方差性的后果

在异方差性存在的情况下,OLS估计量仍然是线性无偏一致的,但却不是最有效的,多重共线性的结果相同。在进行回归分析时,估计的系数是Yi的线性组合,而Yi是对应于各个Xi的随机变量,其分布情况与

ui相同,因此,回归系数a和b的分布情况就取决于各个ui的分布情况,异方差性存在的条件下,就没有办法

得到回归系数的真实的方差,因此,会影响估计系数的有效性,并使各种检验无法进行,因为检验的前提条件是知道变量的分布情况。

******异方差性的检验

异方差的检验可以通过残差图来表示,以横轴为自变量,纵轴为回归以后的残差,只要不是平行于横轴的带状分布则证明有异方差性,也可以通过Glejser和Goldfeld-quandt检验看是否存在异方差性。SPSS中在回归的对话框中点击PLOT按钮,在弹出的对话框中选择ZRESID和ZPRED也可以观察是否有异方差性,

******异方差性的补救措施

如果自变量取各个值时的方差是已知的,那么在回归方程两边同除以方差,就可以消除异方差性,此

?Yi?a?Xi??ui??=+b??+??,与原来的回归模型Y=a+bX+u不同,相当于在回归之前时的回归模型变为??iii?i??i??i???i?先将变量除以方差,然后再用原来的模型进行回归(这种先将原始变量转换成满足满足经典模型假设的转

换变量,然后再使用OLS程序,叫做广义最小二乘法GLS,WLS是GLS的一种),在异方差性存在的条件下原来的这种简单的回归模型所表示的因变量与自变量的关系是不对的,为了得到因变量与自变量间正确的关系必须对原回归模型进行调整。当?未知时要找到与?成正比的变量然后在原OLS方程两边同除以这个变量来消除异方差性,也可以对变量分别取对数来减小相异的方差的绝对值的大小。确定有异方差性之后就应该使用加权最小二乘法(WLS)进行回归,选择一个与扰动项方差成比例的变量做为权数,在SPSS中是通过在回归对话框中点击WLS然后在WLS WEIGHT中选入加权变量。另一个方法就是先对因变量和自变量去对数,减少各自的变动幅度来减轻异方差性,然后进行OLS回归。

2

2

第八章:自相关

自相关是指按时间或空间排序的观测值序列的成员之间的相关,是一个变量序列内部前后观测值之间的相关,通常是一个变量的值受其前期值的影响,自相关也叫序列相关,在OLS分析中的自相关问题是指残差序列的前后项之间的相关性。自相关分为自回归、移动平均和自回归移动平均三种情况。

通常情况下用到的自相关有两种一种是序列的前后值之间的自相关,另一种是回归方程的残差序列的前后值之间的自相关,前者在在EVIEWS中打开该序列对象后用view------correlogram来检验,回归结果的残差序列是否存在着自相关通过DW值是否接近于2来判断,如果远离2则表明存在序列相关。

17

在回归方程的自变量中加上AR(1)与回上因变量的1阶滞后项是不同的,加

了一阶滞后项的回归方程的形式为CHANGE = 8*CLOSE - 8*MAX + 4 + 9*CHANGE(-1)。

2自相关和异方差性都是出自样本数据的问题,多重共线性是模型设定的缺陷,时间序列通常都有明显的惯性从而导致自相关,也有可能是有未包括在方程中的自变量所致,即有一些因素未被作为自变量纳入到方程中。

3多重共线性、异方差性和自相关存在时用OLS回归的结果都是线性无偏一致的,但不是最有效的,如果完全符合经典线性模型的假定,那么OLS回归的结果就是线性无偏一致并且是最有效的。多重共线性是自变量之间的线性关系造成的,自相关和异方差是对应不同自变量的扰动项之间的对应关系而引起的。异方差是指对应xi和对应xj的扰动项ui和uj的方差D(ui)和D(uj)不相等,自相关是指对应xt和对应xt-1的扰动项ut和ut-1的关系为ut=?ut-1+?t,?叫自协方差系数。

4如果两个时期的扰动项之间的关系形如ut=?ut-1+?t,这个方程式叫做一阶自回归模式AR(1),如果扰动项之间的关系为ut=?ut-1+?ut-2+?t就叫做AR(2)。如果扰动项是由ut=?vt-1+vt产生的,其中V是零均值和懒定方差的随机干扰项,那么这种自回归模式叫做MA(1)。如果扰动项的产生机制为

ut=?ut-1+vt+?vt-1那么这种自回归模式叫做ARMA(1,1),ARIMA模型又叫Box—Jenkins模型,Box—

Jenkins模型实际上是主要运用于单变量、同方差场合的线性模型,单变量异方差场合下用ARCH和GARCH模型,多变量条件下用协整(co-integration)理论,非线性条件下用门限自回归模型。

5自相关的检验 可以横纵为时间纵轴为残差(相当于扰动项),绘残差图,如果不是分布在一个带状区则表明存在着自相关。也可以使用Durbin-Watson检验得到DW值,如果该值离2很远则表明存在自相关,

6自相关的补救措施 如果自相关为ut=?ut-1+?t即AR(1),则在回归之前把因变量和自变量分别减去自已的?倍再用标准的OLS模型进行回归,即(Yt-?Yt-1)=a(1-?)+b(Xt-?Xt-1)+?t,在自相关存在的条件下

Yt=a+bXt+?t所表示的自变量与因变量之间的关系是不对的,必须用改进的模型进行回归。

在EVIEWS中自相关的补救措施是在回归方程的自变量中加上AR(1),此AR(1)相当于在回归中考虑了残差的影响,在方程对象的view----presentation中考虑了AR(1)的回归方程通常形式为CHANGE =1*CLOSE -

9*MAX + 4 + [AR(1)= 1]。

7在假定不存在序列相关的情况下使用Yt=a+bXt+?t进行回归的结果不理想,往往是由回归结果的DW值偏离2很远来判断,因此断定存在序列相关性,由此断定使用Yt=a+bXt+?t作为回归模型是不正确的,必须采取补救措施来纠正自相关的影响,采取补救措施指的是对模型进行调整,回归方法仍然是OLS,对

18

数据之间的关系建模最终是要得到两个变量之间的相互关系的方程,只不过在序(Yt-?Yt-1)=a(1-?)+b(Xt-?Xt-1)+?t与Yt=a+bXt+?t一样也是表示两个变量的相互关系,

列相关存在的情况下,后者是所表示的变量之间的关系是不正确的。

13 自相关是指在时间(如在时间序列数据中)或者空间(如在横截面数据中)按顺序所列观察值序列的各成员间存在着相关,简言之就是本期的扰动项与前期的扰动项相关,是由于时间序列数据的非静态性

(Non-stationary)引起的,时间数列的非静态性与截面数据的异方差性相对应,相当于用于计算统计量的样本随时间而发生了改变,从而样本的方差和均值也发生了改变,使得各个时期的数据好像不属于一个相同的样本,从使普通的回归方法无效,通常是由于时间序列的惯性以及模型设定等方面的原因导致的,其后果与异方差相同,实践中很难取得关于U的数据,只是用残差来代替,因此可以借助于回归后的残差进行是否存在自相关的分析,在SPSS中通过Graphs?Time series?Autocorrelations绘制残差自相关图来观察自相关情况;也可以通过OLS线性回归结果中杜宾-瓦尔森d检验的d值来判断,d的取值范围是0到4,当取2时无自相关,当接近与4时负相关,接近于0时正相关,在SPSS回归对话框中点击Statistics在弹出的对话框中选Durbin- watson,就可以输出D值。当时间序列存在自相关时用Analyze?Time series? Auto-regression 回归,回归结果中的AR(1)表明回归方程中含有因变量的一阶滞后。

14 异方差性和自相关的区别与联系,异方差性是指各个观察点所对应的扰动项的方差不相等,自相关是指各个观察点所对应的扰动项的之间是相关的,存在异方差性而不存在自相关时各个扰动项的协方差矩阵只有对角线上元素非0,并且不相等。存在自相关时各个扰动项的协方差矩阵的各项是协方差,对角线上的元素为方差,并且非对角线上的元素由于存在自相关而不为0。存在异方差和自相关都不符合Markov条件,为了解决这两个问题所采取的解决措施的思路是一样的,都是找到一个矩阵,在回归方程的两边同时乘以该矩阵,将协方差矩阵变为只有对角线上的元素相等,非对角线上的元素为0的矩阵,使之满足OLS的假设条件A4,由线性代数的知识我们知道,一个矩阵与他的逆阵的乘积是一个单位阵,

第九章:时间序列分析

时间序列数据最大的问题就在于自相关问题的存在,时间序列分析主要有单时间序列的分析和多个时间序列的回归分析两类。单个时间序列的分析模型不同于普通经济计量模型,它不以经济理论为依据,而是依据变量自身的变化规律,利用外推机制描述时间序列的变化,利用过去的规律来推测未来,主要根据自相关性、移动平均性和单整性等;它明确考虑时间序列的非平稳性。多时间序列分析时,应该充分考虑平稳性问题。

******时间序列的定义,时间序列是对随机过程的一次观测结果,而随机过程是指随时间由随机变量组成的一个有序序列。

******为什么时间序列的平稳性非常重要,主要是为避免伪回归问题,在用一个时间序列对另一个时间序列做回归时,虽然两者之间并无任何有意义的关系,但经常会得到一个很高的R,这种情况表明存在伪回归问题,伪回归的另一个重要表现是DW明显的偏离2,这种情况说明存在伪回归问题。例如儿子的身高与门前小树的高度之间的回归,因此在时间序列变量进行回归之前要进行平稳性检验。

多个时间序列之间关系的分析方法主要有三种,其一,是对不平稳序列进行加工,得到平稳序列再进行回归分析,如得到各自的差分序列,然后进行分析,当然差分序列之间的回归得到的就不是原变量之间的关系,而是原变量的差分之间的关系,原变量之间不存在通常意义上的回归关系,因为硬按原变量回归

19

2得到的结果是不满足基本假设是没有意义的。其二,是进行协整分析来分析两个不平稳的变量之间是否存

{xt}其三,是硬按原变量进行回归,同时在解在稳定的相互关系,如果存在那么采用误差修正模型进行分析。

释变量中加上AR和MA项以使回归残差满足基本假设。

******用EVIEWS估计方程时在Equation Estimation对话框中输入的AR(n)的含义,Estimating higher order AR models is only slightly more complicated. To estimate an AR(k) you should enter your specification, followed by expressions for each AR term you wish to include. If you wish to estimate a model with autocorrelations from one to five:

CSt?c1?c2GDPt?utut??1ut?1??2ut?2?...?ut?k

you should enter in the Equation Estimation frame cs c gdp ar(1) ar(2) ar(3) ar(4) ar(5),By requiring that you enter all of the autocorrelations you wish to include in your model, EViews allows you great flexibility in restricting lower order correlations to be zero. For example, if you have quarterly data and want to include a single term to account for seasonal autocorrelation, you could enter cs c gdp ar(4)。

******时间序列的分析步骤,首先把时间序列画线图,观察序列的大体的特征,然后看序列的ACF及PACF图考察数列的自相关情况,然后进行单位根检验看序列是否平稳,接下来用ARMA模型进行回归,然后,检验残差,并根据残差对ARMA模型的阶数进行整理。A time series model will generally reflect the fact that

observations close together in time will be more closely related than observations further apart. In addition, time series models will often make use of the natural one-way ordering of time so that values in a series for a given time will be expressed as deriving in some way from past values, rather than from future values (see time reversibility.)

methods for time series analyses are often divided into two classes: frequency-domain methods and time-domain methods. The former centre around spectral analysis and recently wavelet analysis, and can be regarded as model-free analyses well-suited to exploratory investigations. Time-domain methods have a model-free subset consisting of the examination of auto-correlation and cross-correlation analysis, but it is here that partly and fully-specified time series models make their appearance.

2时间序列及时间序列分析方法,随机过程的一次实现称为时间序列,时间序列中的元素称为观测值,每一年在各个月末的水位纪录就是一个时间序列,{x11, x21, …, xT-11, xT1},时间序列的一次观察都是在一定的时间长度(如一年),对各个不同的时间点(每个月末)上的观察值进行记录, 按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列,对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。

平稳时间序列的分析采用AR、MA、ARMA的方法进行处理,对于非平稳时间序列可以采用ARIMA模型进行随机分析,或者是根据Cramer分解定理(任何一个时间序列{xt}都可以分解为两部分的叠加,一部分是由多项式决定的确定性趋势成分?t,另一部分是平稳的零均值误差成分?t,即xt??t??t)将时间序列分解为长期趋势、季节波动和随机波动三部分,忽略随机部分进行确定性分析,然后再预测,找长期趋势值可以用时间作为自变量用OLS回归找到未来某期的长期趋势值作为未来某期的预测值;或者用指数平滑法,未来某期长期趋势值用前几期的平均值代替。或者用季节指数法通过计算季节指数,然后用均值乘以季节指数得到未来某期的预测值。

20

Q = T

?k?1Krk2 近似服从 ?( K - p - q) 分布,其中T表示样本容量,rk 表示用残差序列计算的自相关

2

系数值,K表示自相关系数的个数,p 表示模型自回归部分的最大滞后值,q表示移动平均部分的最大滞后值。

根据估计的模型进行forcast,看预测序列的line图与原序列的line图是否有明显的差异,同时要计算两个序列的相关系数看是否有明显的差异。

8非平稳序列的确定性分析 任何一个时间序列都可以分解为两部分的叠加,其中一部分是由多项式决定的确定性趋势成分,另一部分是平稳的零均值误差成分。非平稳序列的确定性分析将时间序列的变动分解为三部分,即长期趋势波动、季节性变化和随机波动,并且克服其它因素的影响,单纯测度出某一个确定性因素对序列的影响,常用的分析方法是趋势分析方法,一种是趋势拟合法,即把时间作为自变量,相应的序列观察值作为因变量,用OLS建立序列值随时间变化的回归模型,结果如y=2+3t的形式;另一种是平滑法,方法有移动平均法和指数平滑法,即用最近几期的平均值作为对未来的预测值,各期占相同的权重,指数平滑法也是用最近几期的平均值作为对未来的预测值,但是各期所占的权重不同,离预测期越近的值所占的权重越大,由近到远的顺序权重分别为a、a(1-a)、a(1?a)2、 a(1?a)3…a(1?a)n,这也是叫指数平滑这个名称的原因,a介于0.05到3之间的加权效果比较好。季节效应分析是指时间序列受到季节的影响较大,将时间序列分解为受季节影响的部分和随机影响部分yt?stx??t,其中x是指序列总平均数、?t是随机影响部分、s为季节指数,在SPSS中用Analyze--—time series----seasonal decomposition进行季节效应分解,输出结果中的seasonal factors就是各个季节的季节指数。

平稳序列可以采取MA、AR、ARMA等进行分析和预测,ARIMA用于差分后平稳序列的拟合。不平稳序列用确定性时序分析方法。

9协整分析,假定自变量序列为?x1?,...,?xk?,因变量序列为?yt?,构造回归模型yt??0???xii?0kit??t

假定回归残差序列?t平稳,我们称响应序列?yt?与自变量序列?x1?,...,?xk?之间具有协整关系。单整是指差分后平稳的序列。如果一个不平稳序列经过d次差分可以变成平稳序列,则称这个序列有d阶单整性,协整是指两个或以上的非平稳序列的线性组合是一个平稳的序列。协整用于检验两个序列之间是否存在着稳定的相关关系,协整的经济意义在于具有协整关系的两个变量虽然各自都有自已的长期波动规律,如果它们是协整的则他们之间存在着长期稳定的比例关系,如消费和收入序列之间的协整关系表明二者之间存在着长期稳定的比例关系,这种比例关系就是边际消费倾向,反之如果两个变量各自有其长期波动规律,但不是协协整的,则他们之间就不存在长期稳定的比例关系,如消费和储蓄量之间通常不是协整的,此时如果建立ct?a??st?ut从计量经济学意义上来说就是不合适的因为扰动项一定不是白噪音,不符合OLS的假定。

协整用于研究两个随机游走序列是否存在稳定的长期关系,如收入和消费之间的关系。以Yt表示收入,以Ct表示消费,若两者的线性组合Zt?Yt?bCt为平稳序列,则表明收入与消费之间存在着协整关系,且b是唯一的。

26

通常的模型及一些时间序列模型如ARMA中要求时间序列是平稳的,但是由于实际应用中大多数时间序列是非平稳的,通常采用差分方法消除序列中含有的非平稳趋势,使得序列平稳后建立模型如ARIMA模型,但是变换后的序列限制了所讨论经济问题的范围,并且有时变换后的序列由于不具有直接的经济意义,使得平衡序列后所建立的时间序列模型不便于解释,协整为非平稳序列的建模提供了另一种途径,虽然一些经济变量的本身是非平稳序列,但是,他们的线性组合却有可能是平稳序列,这种平衡的线性组合被称为协整过程且可被解释为变量之间的长期稳定的均衡(by equilibrium we mean relationships which will hold on average over a long period of time, not necessarily market clearing)关系,例如消费和收入都是非平稳序列,但是具有协整关系,假如它们不具有,那么,长期消费不可能比收入高或低,于是消费者便会非理性的消费或累积储蓄。

9.1协整检验,协整检验从检验对象上可以分为两种,一种是基于回归系数的协整检验如johansen协整检验,另一种是基于回归残差的协整检验如DF和ADF检验,常用的是后一种,其作法是首先将两个两个变量作回归,因变量不能被自变量所解释的部分构成一个残差序列,然后对这个残差序列做单位根检验,因此,检验一组变量之间是否存在协整关系等价于检验回归方程的残差序列是否是一个平稳序列,是否有单位根,,在统计软件中这种检验是由ADF检验来完成的。

9.2

10AR、MA及ARMA等模型与OLS模型的区别 在于OLS的方程用于预测时只考虑由各种变量及其系数所决定的因变量的确定性部分,而不能考虑随机扰动项对因变量的影响,其侧重点在于分析变量间的关系。纯AR、MA及ARMA等随机过程的方法认为某变量的不同时期值是过去若干期数据的一种结果,而不受其他变量的影响,通过分析时间序列中前后变量的关系来确定未来的值,其侧重点在于预测未来。两者相结合则可以提高预测的准确性,不但考虑其他变量的确定性影响,而且考虑扰动项对因变量的影响,如解释变量中含有AR(1)的模型实际上由yt?a?bxt?ut和ut??ut?1??t两个方程组成,不但考虑变量间的相互影响,而且考虑扰动项序列的特征对扰动项的规律也加以探索,所以能提高预测的准确性。

11序列不平稳和异方差的区别,序列不平稳是指这个序列的期望值和方差随着时间而变化,即不同的时间段中的数据有不同的均值和方差。异方差性是指回归结果的残差的方差会发生变化,异方差性是序列之间关系的回归方程所面临的问题,序列不平稳是序列所面临的问题。

12单位根检验,用于检验时间序列是否平稳,有单位根则时间序列不平稳,产生时间序列的随机过程中具有先后关系的两个变量一般是有相互影响的,但是通常条件下这个影响不会大于1,也就是在以后发生的变量为因变量先发生的变量为自变量的回归方程中,先发生的变量的系数是小于等于1的,不会有大于1的情况发生,如果等于1就叫有单位根,小于1就叫无单位根,随机游走这种典型的不平稳序列的一期滞后项的系数为1即回归方程为Yt?1Yt?1??,所以将对序列平稳性的检验叫做单位根检验,EVIEWS中首先打开序列对象,在该对象的VIEW菜单中用unit root test命令,在随后出现的对话框中的test type中选择要采用谁发明的单位根检验法来检验单位根,通常选择augmented dick-fuller test或者philips-perron test,在使用

augmented dick-fuller test的输出结果中如果Augmented Dickey-Fuller test statistic统计量负值并且其绝对值很

大则拒绝单位根假设,认为序列是平稳的(张晓桐,eviews,133),也可以根据Augmented Dickey-Fuller test statistic统计量的prob值较大(大于1%、5%及10%),则表明拒绝原假设所犯错误的概率较大,需要接受原假设。在输出结果的下部是对Augmented Dickey-Fuller Test Equation即如何计算Augmented Dickey-Fuller test statistic的方程进行的说明,此部分不重要,关键是看Augmented Dickey-Fuller test statistic的T值和prob值。使用philips-perron test的结果相似。

27

一般传统的回归方程式,通常是在假设变量平稳且残差性平均数为零、变异数为常数的条件下进行分析的,Granger指出,当变量为非平稳资料时,若以传统回归方法进行分析,则可能产生虚假回归的问题,即检验结果具有很高的R值,且t检验统计值也非常显著,但其检验结果却不具有任何经济意义,帮应首先检验变量数据是否是平稳序列,若不属于平稳的资料,则必须以差分后的资料进行分析,平稳性检验的ADF法的表达式为?yt??0??1t??yt?1?2???yii?1Rt?i??t,其中yt为时间序列,?0为截距项,?t为误差项,t

为时间趋势项,R为滞后期数,?表示差分,ADF的原假设为:H0:?1?0,??0.,备择假设为

H0:?1?0,??0.若拒绝零假设,表示时间数列平稳,否则为非平稳。

如果随机过程的前后两个随机变量之间如果存在关系Yt?1Yt?1??,其中?为白噪音,则该随机过程不平稳,可以认为Yt?1的系数为1时认为有单位根,否则无单位根。

平稳性检验实际上是检验时间序列的前面的项对后而把项有没有影响,也就是检验Yt????Yt?1??t的系数?是否为1中Yt?1,如果为1则表明存在单位根,如果不为1则无单位根序列平稳,那么为什么不检验?是否大于1呢?是因为大于1是不可能的,过去对现在的影响不可能大于1,上式两边同时减去Yt?1可以得到

?Yt?Yt?Yt?1???(??1)Yt?1??t,ADF检验就是检验(??1)是否显著的不为0,如果

*******随机过程,为什么在研究时间序列之前先要介绍随机过程?就是要把时间序列的研究提高到理论高度来认识。时间序列不是无源之水,它是由相应随机过程产生的。自然界中事物变化的过程可以分成两类。一类是确定型过程,一类是非确定型过程,确定型过程即可以用关于时间t的函数描述的过程。例如,真空中的自由落体运动过程,电容器通过电阻的放电过程,行星的运动过程等。非确定型过程即不能用一个(或几个)关于时间t的确定性函数描述的过程,换句话说,对同一事物的变化过程独立、重复地进行多次观测而得到的结果是不相同的,在不同的时刻与时间t的函数关系是不同的,这种函数关系不断的变化。

①随机过程的概念,由随机变量组成的一个有序序列称为随机过程,记为{x (s, t) , s?S , t?T }。其中S表示样本空间,T表示序数集,随机过程的一次实现称为时间序列,也用{x t }或x t表示,是随机过程的一个观察值。随机过程与时间序列的关系图示如下

随机过程: {x1, x2, …, xT-1, xT,}

第1次观测:{x11, x21, …, xT-11, xT1} 第2次观测:{x12, x22, …, xT-12, xT2}

? ? ? ? ?

第n次观测:{x1n, x2n, …, xT-1n, xTn}

某河流一年各个月末的水位值{x1, x2, …, xT-1, xT,}(下标表示各个月),可以看作一个随机过程,在各个月末的时间点上的水位值xT都是一个随机变量。每一年(相当于每一次观测)的水位纪录则是一个时间序列,{x11, x21, …, xT-11, xT1},在每年中同一时刻(如t = 2时)的水位纪录是随机变量因而是不相同的。{ x21, x22, …, x2n,} 构成了x2取值的样本空间,观察次数越多则该样本空间越大。随机过程一般分为两类,一类

28

是离散型的,一类是连续型的。如果一个随机过程{xt}对任意的t?T 都是一个连续型随机变量,则称此随机过程为连续型随机过程;如果一个随机过程{xt}对任意的t?T 都是一个离散型随机变量,则称此随机过程为离散型随机过程,通常只考虑离散型随机过程。

②两种基本的随机过程:

白噪声过程:对于随机过程{ xt , t?T }, 如果E(xt) = 0, Var (xt) = ? 2 ? ? , t?T; Cov (xt, xt + k) = 0, (t + k ) ? T , k ? 0 , 则称{xt}为白噪声过程。白噪声是平稳的随机过程,因其均值为零,方差不变,由于协方差为0所以白噪音中的各个随机变量之间相互独立,独立性是白噪音这种平稳过程的突出特点。白噪声源于物理学与电学,原指音频和电信号在一定频带中的一种强度不变的干扰声,这种随机过程中前后变量无相互影响,下一个时间的观察值,与本期及前期的观察值无关,都是从均值出发。

随机游走(random walk)过程对于下面的表达式xt = xt -1 + ut 如果ut 为白噪声过程,则称xt 为随机游走过程。随机游走过程的均值为零,方差趋于无限大。xt = xt -1 + ut = ut + ut-1 + xt -2 = ut + ut-1 + ut-2 + 而E(xt) = E(ut + ut-1 + ut-2 + …) = 0, Var(xt) = Var(ut + ut-1 + ut-2 + …) =

????tu2? ? ,所以随机游走过程是非平稳的

随机过程,一个醉汉离开酒吧后的位置是一随机游走过程,因为,醉汉在某一时刻所处的位置总要受此前的时刻上所处的位置影响,也就是他总要从上一个时刻所处的位置出发,这种随机过程中前后变量相互影响,下一个时间的观察值与本期及前期的观察值有关。

*****随机过程与时间序列的关系,一个时间序列是构成随机过程的若干随机变量的一次实现。这不同于通常的统计分析,例如令X=投骰子的结果,这样x1、x2…xn是X的不同实现。

第十章:面板数据分析

面板数据模型

1面板数据的定义,面板数据是指一个变量在不同的时点,不同的人身上的观察值,如中国31个省市的1978-1990年的GDP数据,这些数据的总体就构成一个面板数据。此时各CASE都有两个比较的维度,一个是时间上的纵向自我比较,另外一个是同一时点上的各个地域之间的比较。例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据yi t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。

2pool对象,在pool对象中的识别名identifiers指明数据是属于哪些观察对象的,相当于指明GDP是哪个省的数据,表明面板数据由哪些省的数据组成,为了清晰一般取为带下划线的名字如“_shandong”,。

3固定效应和随机效应模型,都是针对扰动项来曲别的,如果不同的个体或者不同的时刻具有相同的截矩项那么就叫固定效应模型,固定效应模型又可以分为个体固定效应模型、时刻固定效应模型和时刻个体固定效应模型,随机效应模型把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项(ui),一个是时间随机误差项(vt)。

29

4 面板数据模型的含义,面板数据模型可以表示为y?X???,其中

?y1??X1???1???1??????????y??X???????y??2?; X??2?; ???2?; ???2?,y是一个N?T?1的向量;X是一个

?????????????y??X????????N??N??K??N?N?T?K的矩阵;而μ是一个N?T?1的向量。

??xiK??i1?1???K?xi2???i2?;?i??,不同的yi表示个体i在不同时点上因变量????????K?????xiT??iT??y1??yi1??????y2?yi2?,y是不同个体的构成即y???,X也类似。 的各个值组成的向量????????????yN??yiT??xi11xi21?yi1??1??2yxx?i2yi???; Xi??i2i2?????????x1x2?yiT??iTiT

5Hausman检验(Hausman test),用于验证面板数据模型的设定应该是固定效应还是随机效应。

2.面板数据的估计。

用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。

2.1 混合估计模型。

如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型, yit = ? +?1 xit +?it, i = 1, 2, …, N; t = 1, 2, …, T (1) ? 和?1不随i,t变化。称模型(1)为混合估计模型。

以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:

30

图10

EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能,从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。工具栏中点击Sheet键,从而打开Series List(列写序列名)窗口,定义变量CP?和IP?,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开Pooled Estimation(混合估计)窗口如下图。

图11

在Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。得输出结果如图10。相应表达式是

CPit= 129.6313 +0.7587 IPit

31

?(2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.99

15个省级地区的人均支出平均占收入的76%。

如果从时间和截面上看模型截距都为零,就可以建立不含截距项的(? = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,

yit = ?1 xit +?it, i = 1, 2, …, N; t = 1, 2, …, T (2) 对于本例,因为上式中的截距项有显著性(t = 2.0 > t0.05 (103) = 1.99),所以建立截距项为零的混合估计模型是不合适的。

EViwes估计方法:在Pooled Estimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。

2.2 固定效应模型。

在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。

固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model)、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model)。下面分别介绍。

(1)个体固定效应模型。

个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,

yit = ?1 xit +?1 W1 + ?2 W2 + … +?N WN +?it, t = 1, 2, …, T (3) 其中

?1,如果属于第i个个体,i?1,2,...,N。Wi =?

0,其他??it, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和

解释变量。

模型(3)或者表示为

y1t = ?1 +?1 x1t +?1t, i = 1(对于第1个个体,或时间序列),t = 1, 2, …, T y2t = ?2 +?1 x2t +?2 t, i = 2(对于第2个个体,或时间序列),t = 1, 2, …, T

yN t = ?N +?1 xN t +? N t, i = N(对于第N个个体,或时间序列),t = 1, 2, …, T 写成矩阵形式,

???y1 = (1 x1)?1?+?1 = ?1 + x1 ? +?1

???…

???yN = (1 xN)?N?+?N = ?N + xN ? +?N

???上式中yi,?i,?i,xi都是N?1阶列向量。?为标量。当模型中含有k个解释变量时,?为k?1阶列向量。进一步写成矩阵形式,

32

?y1??y??2?= ??????yN?N?1?10?0??01?0???????????00?1??N?N?x1???1??x????2??+?2?? +

????????????N?N?1?xN???1?????2? ???????N?N?1上式中的元素1,0都是T?1阶列向量。

面板数据模型用OLS方法估计时应满足如下5个假定条件:

(1)E(?it|xi1, xi2, …, xiT, ?i) = 0。以xi1, xi2, …, xiT, ?i为条件的?it的期望等于零。

(2)(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分别来自于同一个联合分布总体,并相互独立。 (3)(xit, ?it)具有非零的有限值4阶矩。 (4)解释变量之间不存在完全共线性。

(5)Cov(?it ?is|xit,xis, ?i) = 0, t ? s。在固定效应模型中随机误差项?it在时间上是非自相关的。其中xit

代表一个或多个解释变量。

对模型(1)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。 当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k + N个被估参数,一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。

估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。

(1)首先把变量中心化(entity-demeaned)。 仍以单解释变量模型(3)为例,则有

yi= ?i + ?1xi+?i, i = 1, 2, …, N (4)

1其中yi=

T?t?1T1yit,xi=

T?t?1T1xit,?i=

T??t?1Tit, i = 1, 2, …, N。公式(1)、(4)相减得,

(yit -yi) = ?1(xit -xi) + (?it -?i) (5)

~,上式写为 yit,(xit -xi) =~xit,(?it -?i) =?令(yit -yi) =~it~ (6) yit = ?1~xit+? ~ it

用OLS法估计(1)、(6)式中的?1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。

(2)用OLS法估计回归参数(不包括截距项,即固定效应)。

~ 在k个解释变量条件下,把~xit用向量形式X表示,则利用中心化数据,按OLS法估计公式计算个体

固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,

?~~?) = ??2(X'X)-1 (7) Var(??=其中?2

~~?????ΝΤ?Ν?k~的残差向量。 ~?是相对于?,?(3)计算回归模型截距项,即固定效应参数?i。

? (8) ??i=Yi-Xi??以例1(file:panel02)为例得到的个体固定效应模型估计结果如下:

33

注意:个体固定效应模型的EViwes输出结果中没有公共截距项。

图12

EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。

注意:

(1)个体固定效应模型的EViwes输出结果中没有公共截距项。

(2)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。

(3)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。

(4)输出结果的联立方程组形式可以通过点击View选Representations功能获得。 (5)点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。

(6)点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。

(7)点击Procs选Make Model功能,将会出现估计结果的联立方程形式,进一步点击Solve键,在随后出现的对话框中可以进行动态和静态预测。

输出结果的方程形式是

? x1t = 479.3 + 0.70 x1t ?1t= ??安徽+? y1 (55.0)

34

?x2t = 1053.2 + 0.70 x2t ?2t= ??北京+?y1… (55.0)

?x15t = 714.2 + 0.70 x15t ?15t= ??浙江+? y1 (55.0)

R2 = 0.99, SSEr = 2270386, t0.05 (88) = 1.98

从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。

相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。

原假设H0:不同个体的模型截距项相同(建立混合估计模型)。

备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。 F统计量定义为:

F=

(SSEr?SSEu)/[(NT?2)?(NT?N?1)](SSEr?SSEu)/(N?1)= (9)

SSEu/(NT?N?1)SSEu/(NT?N?1)其中SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。

非约束模型比约束模型多了N-1个被估参数。(混合估计模型给出公共截距项。)

注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。 用上例计算,已知SSEr = 4824588,SSEu = 2270386,

F=

(SSEr?SSEu)/(N?1)(4824588?2270386)/(15?1)182443=== 7.15

SSEu/(NT?N?1)2270386/(105?15?1)25510F0.05(14, 89) = 1.81

因为F= 7.15> F0.05(14, 89) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。

(2)时刻固定效应模型。

时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,表示如下,

yit = ?1 xit +?1 + ?2 D2 + … +?T DT +?it, i = 1, 2, …, N (10) 其中

?1,如果属于第t个截面,t?2,...,T。Dt =?

0,其他(不属于第t个截面)??it, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yi t, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和

解释变量。模型(10)也可表示为

yi1 = ?1 +?1 xi1 + ?i1, t = 1,(对于第1个截面),i = 1, 2, …, N yi2 = (?1 +?2) +?1 xi2 + ?i2, t = 2,(对于第2个截面),i = 1, 2, …, N … yiT = (?1 +?T) +?1 xiT + ?iT, t = T,(对于第T个截面),i = 1, 2, …, N

如果满足上述模型假定条件,对模型(2)进行OLS估计,全部参数估计量都具有无偏性和一致性。模型的自由度是N T –T-1。

35

图13

EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002;在Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。

以例1为例得到的时刻固定效应模型估计结果如下:

?xi1 = 108.5057 + 0.7789 xi1 ?1996 +??i1= ? y1 (1.5) (74.6)

?xi2 = 108.5057 +28.1273 + 0.7789 xi2 ?1997 +??i2= ?y1 (1.5) (0.4) (74.6) …

?xi7 = 108.5057 -199.8213 + 0.7789 xi7 ?2002 +??i7= ? y1 (1.5) (0.4) (74.6)

R2 = 0.9867, SSEr = 4028843, t0.05 (97) = 1.98

相对于混合估计模型来说,是否有必要建立时刻固定效应模型可以通过F检验来完成。

H0:对于不同横截面模型截距项相同(建立混合估计模型)。

H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。 F统计量定义为:

F=

(SSEr?SSEu)/[(NT?2)?(NT?T?1)](SSEr?SSEu)/(T?1)= (11)

SSEu/(NT?T?1)SSEu/(NT?T?1)其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时刻固定效应模型的)的残差平方

和。非约束模型比约束模型多了T-1个被估参数。

注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-T- k。

36

用上例计算,已知SSEr= 4824588,SSEu= 4028843,

F=

(SSEr?SSEu)/(T?1)(4824588?4028843)/(7?1)132624=== 3.19

SSEu/(NT?T?1)4028843/(105?7?1)41534F0.05(6, 87) = 2.2

因为F= 3.19> F0.05(14, 89) = 2.2,拒绝原假设,结论是应该建立时刻固定效应模型。

(3)时刻个体固定效应模型。

时刻个体固定效应模型就是对于不同的截面(时刻点)、不同的时间序列(个体)都有不同截距的模型。如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,表示如下,

yit = ?1 xit +?1+?2D2 +…+?T DT +?1W1+?2W2 +…+?N WN+?it, i=1,2,…,N,t = 1, 2, …, T

(12) 其中虚拟变量

?1,如果属于第t个截面,t?2,...,T。Dt =? (注意不是从1开始)

0,其他??1,如果属于第i个个体,i?1,2,...,N。Wi =? (注意是从1开始)

0,其他??it, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yi t, xit, (i = 1, 2, …, N; t = 1, 2, …, T)分别表示被解释变量

和解释变量。模型也可表示为

y11 = ?1 +?1 +?1 x11 + ?11, t = 1,i = 1(对于第1个截面、第1个个体) y21 = ?1 +?2 +?1 x21 + ?21, t = 1,i = 2(对于第1个截面、第2个个体) …

yN1 = ?1 +?N +?1 xN1 + ?N1, t = 1,i = N(对于第1个截面、第N个个体) y12 = (?1 +?2) +?1 +?1 x12 + ?12, t = 2,i = 1(对于第2个截面、第1个个体)

y22 = (?1 +?2) +?2 +?1 x22 + ?22, t = 2,i = 2(对于第2个截面、第2个个体)

yN2 = (?1 +?2) +?N +?1 xN2 + ?N2, t = 2,i = N(对于第2个截面、第N个个体)

y1T = (?1 +?T) +?1 +?1 x12 + ?1T, t = T,i = 1(对于第T个截面、第1个个体) y2T = (?1 +?T) +?2 +?1 x22 + ?2T, t = T,i = 2(对于第T个截面、第2个个体)

yNT = (?1 +?T) +?N +?1 xNT + ?NT, t = T,i = N(对于第T个截面、第N个个体)

如果满足上述模型假定条件,对模型(12)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T– N–T。注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT– N -T- k+1。

以例1为例得到的截面、时刻固定效应模型估计结果如下:

37

图14

EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002;在Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗中选Fixed effects;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。

注意:

(1)对于第1个截面(t=1)EViwes输出结果中把(?1 +?i), (i = 1, 2, …, N)估计在一起。

(2)对于第2, …, T个截面(t=1)EViwes输出结果中分别把(?1 +?t), (t = 2, …, T)估计在一起。 输出结果如下:

? x11 = 537.9627 + 0.6712 x11, (1996年安徽省) ?1996 +??11= ?y1? x21 = 1223.758 + 0.6712x21, (1996年北京市) ?1996 +??21= ?y1…

38

? x11 = 98.91126 + 0.6712 x11, (1997年安徽省) ?1997 +??11= ?y1? x21 = 98.91126 +1223.758 + 0.6712x21, (1997年北京市) ?1997 +??21= ?y1…

?x15,7 = (183.3882 +870.4197) + 0.6712 x15,1,?15,7= ??2002 +??15+?y(2002年浙江省) 1R2 = 0.9932, SSEr = 2045670, t0.05 (83) = 1.98

相对于混合估计模型来说,是否有必要建立时刻个体固定效应模型可以通过F检验来完成。

H0:对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。

H1:不同横截面,不同序列,模型截距项各不相同(建立时刻个体固定效应模型)。 F统计量定义为:

F=

(SSEr?SSEu)/[(NT?2)?(NT?N?T)](SSEr?SSEu)/(N?T?2)=

SSEu/(NT?N?T)SSEu/(NT?N?T) (13)

其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时刻个体固定效应模型的)的残差平方和。非约束模型比约束模型多了N+T个被估参数。

注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-T- k-1。 用上例计算,已知SSEr= 4824588,SSEu= 2045670,

F=

(SSEr?SSEu)/(N?T?2)(4824588?2045670)/(15?7?2)138946=== 5.6

SSEu/(NT?N?T)2045670/(105?15?7)24647F0.05(20, 81) = 1.64

因为F= 5.6> F0.05(14, 89) = 1.64,拒绝原假设,结论是应该建立时刻个体固定效应模型。

(4)随机效应模型

在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。

yit = ? + ?1 xit + ?it (14) 其中误差项在时间上和截面上都是相关的,用3个分量表示如下。

?it = ui + vt + wit (15)

其中ui ?N(0, ?u2)表示截面随机误差分量;vt ?N(0, ?v2)表示时间随机误差分量;wit ?N(0, ?w2)表示混和随机

误差分量。同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。

随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项(ui),一个是时间随机误差项(vt)。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。

假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是ui和vt,固定效应模型就变成了随机效应模型。

为了容易理解,先假定模型中只存在截面随机误差项ui,不存在时间随机误差分量(vt), yit = ? + ?1 xit + (wit+ ui) = ? + ?1 xit +?it (16)

截面随机误差项ui是属于第个个体的随机波动分量,并在整个时间范围(t = 1,2, …, T)保持不变。随机误差项ui, wit应满足如下条件:

E(ui) =0, E(wit) = 0

39

E(wit 2) = ?w2, E(ui 2)= ?u2,

E(wit uj) =0, 包括所有的i, t, j。 E(wit wjs) =0, i ? j, t ? s E(ui uj) =0, i ? j 因为根据上式有

?it = wit+ ui

所以这种随机效应模型又称为误差分量模型(error component model)。有结论,

E(?it ) = E(wit +uj) = 0,

(16)式,yit = ? + ?1 xit + (wit+ ui),也可以写成yit = (? + ui) + ?1 xit + wit。服从正态分布的截距项的均值效应?u被包含在回归函数的常数项中。

E(?it 2) = E(wit +uj)2 = ?w2 +?u2,

E(?it ?is) = E[(wit+ ui)(wis+ ui)] = E[(wit wis + ui wis + wit ui + ui2)] =?u2, t ? s 令

?i = (?i1, ?i2, …?iT)'

?(?w2??u2)?u2?222?(???uwu)? = E(?i?i') = ??????u2?u2??????

????22?(?w??u)????u2?u2=?w2 I(T?T) +?u2 1(T?1) 1(T?1) '

其中I(T?T)是(T?T)阶单位阵,1(T?1)是(T?1)阶列向量。因为第i期与j期观测值是相互独立的,所以NT个观测值所对应的随机误差项的方差与协方差矩阵V是

??0?0?V = ??????00?0??0??= ????????10?0??01?0????? = IN?N ?? ????????00?1??其中IN?N表示由(T?1)阶列向量为元素构成的单位阵,其中每一个元素1或0都是(T?1)阶列向量。?表示科

罗内克积(Kronecker product)。其运算规则是

?a11Ba12B?aBaB2122 AN?K?B =??????aN1BaN2B?a1KB??a2KB?? ?????aNKB?检验个体随机效应的原假设与检验统计量是

H0:?u2 = 0。(混合估计模型) H1:?u2 ? 0。(个体随机效应模型)

2?N?T????u??it??NT?i?1?t?1?NTLM==?1??2(T?1)?NT2?2(T?1)?itu?i?1t?1???2?????N?2?Tu??i?i?1??1? NT??2?u??it???i?1t?1????2?? 40

本文来源:https://www.bwwdw.com/article/13h7.html

Top