很好的计量经济学读书笔记
更新时间:2023-04-30 15:15:01 阅读量: 综合文库 文档下载
很好的计量经济学读书笔记
第一章:统计基础 (2)
第二章:计量经济学总论 (7)
第三章:双变量回归分析 (9)
第3.1回归方法 (9)
第3.2结果检验 (10)
第3.3回归参数的分布 (11)
第四章:多变量回归分析 (13)
第五章:OLS的基本假设 (13)
第六章:多重共线性 (15)
第七章:异方差性 (16)
第八章:自相关 (17)
第九章:时间序列分析 (19)
第十章:面板数据分析 (29)
第十一章:其他重要的分析方法 (47)
******加权最小二乘法 (48)
******二阶段最小二乘法TSLS (48)
******非线性最小二乘法 (49)
******多项分布滞后(PDLS) (49)
******广义矩估计 (50)
******logit和probit模型 (50)
******因子分析 (51)
******Granger因果分析 (52)
****** 广义线性回归(Generalized least squares) (52)
******格兰格因果检验 (55)
******误差修正模型(ECM) (55)
第十二章:EVIEWS (55)
第12.1节EVIEWS基本操作 (55)
第12.3节EVIEWS时间序列分析 (57)
第十三章:SPSS (58)
第13.1SPSS基本操作 (58)
第十四章:数据分析实战经验 (67)
1
第一章:统计基础
0 常用英文词汇的统计意义 panel data=longitudinal data 是对各个个体进行连续观察的截面数据。回归时的扰动项u=unobserved是影响因变量的其他变量之和,Univariate 单个变量的,如Univariate descriptives 意思是单个变量的统计指标
1 基本概念
统计总体是我们所关心的一些个体组成,如由多个企业构成的集合,统计意义上的总体通常不是一群人或一些物品的集合,而是一组对个体某种特征的观测数据。
参数总体的数值特征描述,如均值、标准差等。
统计量是用样本数据计算出来总体参数的估计值,从一个给定的总体中抽取容量为N的所有可能的样本,对于每一个样本我们可计算出某个统计量的值,不同的样本得到的该统计量的值是不一样的,该统计量的不同的值是不同抽样的结果(根据这些不同抽样计算出的对同一参数进行估计的统计量,可以计算出由各个统计量构成的集体的方差,该方差就是在统计软件中参数后面扩号内的方差),这符合随机变量的定义,因此该统计量也是随机变量,这个统计量的分布称之为抽样分布,它是从同一总体所抽出,同样大小的所有可能样本,其统计量的值的分布,一般情况下是一个正态分布,因为所有的估计值都是对总体参数的近似估计,因而服从以真实值为中心的正态分布,如果总体的分布是已知的则可以根据公式计算统计量
抽样分布的分布参数(均值为总体的均值,标准差为总体的标准差与N的比值)。 4在一个样本之中
包含若干个样本点,各个样本点所对应的个体的某种特征是一个变量,不同个体的该变量的取值相互独立,并且服从某种分布,因此根据样本计算的统计量可以看成是若干个独立变量的函数形式,其分布参数如均值、标准差可用数学公式推导。
时间序列是指同一现象在不同时间的相继观察值排列而成的序列,平稳序列,它的各种统计指标不随着时间而变化,在时间序列的散点图中表现为各点分布在一个以均值为中心的条状带中,同一时间序列的因素分析是指区分时间序列中各种不同因素的影响,确定长期趋势(找一条长期的趋势线)、季节变动(确定季节比率)、循环变动和不规则变动。时间序列分析时一项重要的内容就是根据过去已有的数据来预测未来的结果,利用时间序列数据进行预测时,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。
统计决策是指根据样本的信息对总体的情况做出判断。
点估计是根据样本用与计算总体参数相同的法则(如求平均数)+估计总体参数的具体值,因而叫点估计如用样本的平均身高作为总体的平均身高。
区间估计就是点估计值 边际误差,边际误差是根据显著性水平及统计量的标准差,如大样本时在0.05的水平下边际误差为1.96*标准差。95%置信区间是用样本数据计算出来的对总体参数一个区间估计,保证根据所有样本计算的置信区间中,有95%会把真正的总体参数包含在区间之中,根据不同样本数据对同一总体参数进行估计的相同概率的置信区间不同,根据一个样本计算的对参数进行估计的置信区间是对总体参数的一个区间估计,是总体参数的若干置信区间中的一个,如果继续不断的抽样下去。每个样本会产生一个新的对总体参数的置信区间,如果我们如此不停的抽样下去,所有区间中有95%会包含真正的参数值。区间的概念提醒我们,因为我们只有样本数据,所以我们对于总体的所有叙述都不是确定的。
变量是说明个体的某种特征的概念,如“受教育程度”、“身高”等,说明事物类别的名称叫做分类变量(categorical variable),如性别就有两个分类变量男、女;说明事物有序类别的一个名称,称为顺序变量(rank variable),如一等品、二等品、小学、初中、大学等;说明事物数字特征并且有米、或者公里、年、吨等度量衡单位的叫做数值型变量(metric variable或者scale variable)是量数据如产品产量
2
3 年龄等。数值型数据围绕其平均值分布的集中程度称为数据的离差。
根据不同度量可以定义不同的离差,最常用的有全距、标准差等。以变量X 的标准差S 为单位来度量X 与其平均值X 之间的偏差的变量Z 称为标准化变量,它是一个无量纲量,标准化变量的数值称为标准分数或Z 分数。
偏度是一个分布中不对称程度或偏离对称程度的反映,如果分布的频数曲线右边的尾部比左边的长,则称分布是向右偏反之则称分布是向左偏。偏度=(均值-众数)/标准差。峰度是分布陡峭程度的反映,通常是相对于正态分布言,其值叫做峰度系数,用四阶中心矩与标准差的四次方的比值表示。
变异系数是指变量的标准差与平均值之比。
相关系数反映两个变量之间线性关系的强弱。
假设检验分为参数检验和非参数检验,前者是指对总体分布函数中未知参数提出某种假设,然后利用样本信息对所提出的假设进行检验并做出判断,参数检验需要样本所依赖的总体的分布作出一系列假定如总体服从正态分布且标准差相等,但实际情况中,上述的假定不一定完全合理,或者在应用中对这些假定有怀疑,因此统计学家设计了许多与总体的分布及相关参数无关的检验方法,称之为非参数检验。如一个人号称罚球命中率为80%,为了检验他是不是吹牛皮,于是让他现场投20个球,这就是显著性检验,结果他只投进了4个,计算得在命中率为80%情况下,投20个只进4个的概率为0.2%,则此0.2%就是通常所说的P 值。如果P 值很低(通常小于5%)则可以拒绝原假设。假设检验是为了比较两个值是否有显著的差别,在很多情况下我们给出一个原假设仅仅是为了拒绝它,因此原假设通常是与数据表面所显现出来的现象的相对立的现象。在假设检验中研究者如要确定某参数是否等于某个值须用双尾检验,如检验零件直径是否等于10;如果要确定参数大于或小于某值则用单尾检验如检验奶粉中蛋白质的含量是否大于30%。两者的区别仅仅在于拒绝域不同。在做假设检验时犯第一类错误(原假设正确却遭到拒绝)的最大概率称为显著性水平,显著性水平越高则表明限制条件越严格,在正态分布图豉肚部分的面积越小同时两侧的阴影部分的面积就越大,原假设被拒绝的可能性就越大,回归结果中某系数的精确显著性水平越高则越有可能接受原假设,即系数越有可能为0,系数在越高的显著性水平下显著则越有可能接受原假设即系数越有可能为0,系数不为0的可能性越小,在越低的显著性水平下显著则表明系数不为0的可能性越大。
假设一个统计量(如灯泡寿命)A 服从均值为μ标准差为δ的正态分布,则(A-μ)/δ叫做Z 分数(也叫标准化变量),它服从均值为0标准差为1的标准正态分布。t 统计量是模仿Z 分数而建立的,区别在于后者用于小样本标准差未知的情况下的均值检验而前者用于大样本标准差已知情况下的均值的检验(Z 或t 统计量计算公式中的μ都取原假设中的值),此时作为分母的是s/1 N 代替(s 为样本标准差),也就是用多个变量的均值的标准差代替,因为该统计量是根据样本的均值计算而得,也是用于均值的检验。T 和Z 检验用于检验回归方程中某个自变量的系数是否为0,F 检验用于检验是不是所有的系数都为0。
方差分析用于从方差的角度比较两个或多个总体的均值是否相等,研究分类型自变量对数值型自变量是否有影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响,如行业不同是否对受到投诉的数量有影响,行业是称为因素,旅游、零售、家电具体的行业叫做因素水平(在SPSS 中相当于一个VARIABLE 的不同的值)。计算旅游、零售、家电各行业各自的标准差,然后平均得到组内方差,并认为组内方差是完全是由随机因素造成的,根据各行业的各自的平均值与总均值之差的平方和得到组间方差,并认为组间方差是由于不同的因素水平所造成的,如果各因素水平对因变量(投诉量)无影响,则组内方差与组间方差应该相等,或者说两者的差别在统计上是不显著的,组间与组内方差之比是一个F 统计量,通过检验这两个方差的差别是否显著来判断不同行业接受投诉量的均值是否有明显差别。
17 描述性统计量是对(相当于SPSS 中的)某一变量特征进行描述的一些统计指标,均值是对一个变量的中心位置的度量,其计算方法是先加总所有CASE 的值然后除以数据的个数,其应用如应收帐款的平均帐龄为45天。中位数是对中心位置的度量,它是当CASE 按照升序排列时,处于中间位置的CASE 的变量值,它是对均值的补充,如在年度收入和资产价值数据的报告中,这是因为个别异常大的收入或资产
价值能够使均值膨胀,此时中位数是对中心位置的更好的度量,如应收帐款的帐龄的中位数为35天表示超过一半的应收帐款帐龄的天数在35天以上。众数也是对均值的补充,是在各CASE中出现频率最高的数据的值,如应收帐款帐龄的众数为31天,表示应收帐款最普通的帐龄为31天。四分位数是先把数据进行升序排列,然后把数据依次分为四段,每段含有25%的观察值,中间的三个分段点从小到大分别称为第一二三四分数点,如帐龄的第一四分数点为12天表示有25%的CASE的帐龄小于12天有75%的CASE的帐龄大于12天。极差是各CASE的某变量值的最大和最小值的差,该指标容易受异常值的影响,很少单独用来表示变异程度,如帐龄的极差为18表示最长的帐龄比最短的帐龄多18天。方差是利用所有的CASES对某变量值的变异程度的度量,在单位相同时可以用于比较两个变量的变异程度,可以用来度量与股票投资相关的风险,它给出每月收益如何围绕和期平均收益波动。如零件的尺寸的标准差表明了生产加工技术的稳定性。变异系数是标准差与均值的比值,常用于比较变量的变异程度,如A加工零件尺寸的变异系数为15%,而B为10%,表明A加工技术要比B稳定。切比雪夫定理认为与均值距离在Z个标准差以内的CASE例至少
为1-1/Z2,一般情况下68%的数据与均值距离在一个标准差以内,95%的数据在2个标准差以内,几乎所有的数据都在3个标准差以内,以上所述可以用于异常值的检测,然后确定异常值是否正确。
4 参数检验分为一个总体参数的检验和两个总体参数的比较检验,前者是为了确定某一总体的参数是不是某一个值,而后者是为了比较两个总体的参数是不是相等。检验(z检验和T检验)什么参数则需要根据样
本计算什么参数的值及该参数的标准差(δ/N或S/N),如要检验均值是否为某个值则需要根据样本计算样本均值及样本均值的标准差。
5大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化,我们可以用“平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。
6概率分布是关于总体的概念。有了概率分布就等于知道了总体。
6统计中各种常用分布
①CHI-SQUARE分布,一个正态分布的变量的平方服从自由度为1的CHI-SQUARE分布,K个独立的正态分布变量的平方和则服从自由度为K的CHI-SQUARE分布,在统计中CHI-SQUARE的自由度的意义是独立观察值的个数K,自由度是卡方分布的参数就像均值和标准差是正态分布的参数一样,如样本中每个灯泡的寿命服从正态分布,则5个灯泡的寿命的平方和服从自由度为5的卡方分布。CHI-SQUARE可以用于总体标准差是否为某值的假设检验。
②T 分布,X来自一个正态总体样本,则变量服从T分布,其中U是总体的均值,S是样本方差,N是样本中样本点的数量,自由度为N-1,T统计量是根据样本数据计算而得。
③F分布,两个相互独立样本的样本方差之比在代入样本数据之前叫做F变量,代入样本数据之后叫做F统计量,服从F 分布,F 统计量经常用于比较两个样本的方差是否相等的假设检验,分子分母的样本方差
的计算公式分别为、,记为F(M-1,N-1)。另外它也可以用于检验拟合优度
的显著性此时,n是观察值的个数,k是包括截距在内的解释变量的个数。F-分布变量为两个2x-分布变量(在除以它们各自自由度之后)的比;而两个2x-分布的自由度则为F-分布的自由
4
5 度,因此,F-分布有两个自由度;第一个自由度等于在分子上的2x -分布的自由度,第二个自由度等于在分母的2x -分布的自由度。
④二项分布,二项试验是指把相同的试验进行N 次,并且每次试验只有两种可能的结果,单次试验成功的概率为P ,每一次试验都独立进行,如果对于卖保单的例子,如果随时间推移推销员疲劳并失去了热情,则不能保证“单次试验成功概率为P ”。在一个二项试验中,我们关心的是在N 次试验中出现成功的次数,如果以X 表示N 次试验中成功的次数,我们可以看到X 可取的值为0、1、2……N 因为值的个数是有限的,故X 是离散型随机变量,与该随机变量有关的概率分布叫做二项分布(属于离散型),如果知道每个顾客进店买某商品的概率和进店顾客的数量(根据以往的经验取得),则可以估计每天需要的货量。二项分布是指做有限次只有两个结果的试验中,实验成功次数为B 的概率,泊松分布是指做无限次只有两个结果的试验中,实验成功次数为B 的概率。
⑤泊松分布,泊松试验是指事件在任意两个等长度的区间内发生一次的概率相等,并且事件在一区间发生与否与其他区间独立,则事件发生的次数服从泊松分布(属于离散型)。在已知一个区间内事件发生次数的平均值μ时,事件在一个区间内发生X 次的概率为μx e μ-/x !,花旗银行用此公式计算1分钟内到达某ATM 机的人数为2及以上以上的概率以确定是否增加ATM 机的数量。
7
8对于连续型随机变量X ,a 下侧分位数(又称为a 分位数,a-quantile )定义为数x α,它满足关系 ()p x x αα≤=。上侧分位数定义为满足关系()p x x αα≥=的x α。通常用z α表示标准正态分布的a 上侧分位数,即对于标准正态分布变量Z ,有()p z z αα≥=。
一个由正态变量导出的分布是2x -分布(chi-square distribution ,也翻译为卡方分布)。该分布在一些检验中会用到。n 个独立正态变量平方和称为有n 个自由度的2x -分布。
正态变量的样本均值也是正态变量,能利用减去其均值再除以其(总体)标准差来得到标准正态变量。但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t-分布(t-distribution ,或学生分布,Student ’s t)。
9判明一个事情的真伪,需要用事实说话。在统计中事实总是来源于数据。假定某药厂声称该厂生产的某种药品有60%的疗效。但是当实际调查了100名使用该药物的患者之后,发现有40名患者服后有效。这个数据是否支持药厂的说法呢?药厂所支持的模型实际上是一个参数为0.6的Bernoulli 试验模型。100名患者的服药,实际上等于进行了100次试验。这就是二项分布B(100,0.6)模型。由于使用了药厂的0.6成功概率。这个模型是基于药厂的观点的。可以基于这个模型计算100名患者中有少于或等于40名患者治疗有效的概率。通过计算(或查表,后面会详细描述)易得,在药厂观点正确的假定下,这个概率为0.000042。这说明,如果药厂正确,那么只有40名患者有效这个事实是个小概率事件,即“少于或等于40名患者有效”的可能性只有大约十万分之四。这样在药厂的观点和事实之间有了矛盾。是事实准确还是
6 药厂准确呢?显然人们一般不会认为药厂的说法可以接受。这样,就利用小概率事件来拒绝了药厂的说法。 这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础。
5 建模是一个建立估计回归方程的过程,经过这一过程,我们可以得到描述一个因变量和一个或多个自变量之间关系的估计回归方程。建模的主要结果应该是找到合适的函数形式来描述变量之间的关系,并且选择该模型所应包含的自变量。
6 假设检验中的原假设是从数据表面所显现出来的现象的相对立的现象。
7 假设检验时T 、CHI-SQUARE 、F 、Z 都是以正态总体的样本为基础的统计量,在代入样本的观察值以前叫做变量,服从抽样分布,并且它们的分布事先已知。只所以要用这些统计量是因为它们可以根据样本很容易的算出,然后可以比对在原假设正确的条件下取得该(T 、F 、Z 、CHI-SQUARE )值的概率(P 值),如果该概率小于确定的显著性水平,或者在无预先确定的显著性水平下小于5%,则拒绝原假设,否则接受原假设。也可以与确定的显著性水平下的Critical value 相比对,如果大于Ccritical value 则拒绝原假设。
8 假设检验中最重要的就是根据要检验的参数构造一个其分布情况已知的统计量,第二步是根据统计量的分布及事先人为规定的显著性水平确定一个大概率事件和小概率事件(大概率事件是指根据样本计算的统计量与原假设值距离在一定范围之内,小概率事件是指根据样本计算统计量与原假设值的距离在一定范围之外),第三步是根据样本统计量看是小概率事件发生还是大概率事件发生,如果大概率事件发生则原假设正确否则拒绝原假设。
9 无论是Z 检验还是t 检验归根到底都是要在一定的显著性水平下看根据样本计算的统计量与原假设值距离的远近,当然此距离是以标准差来计量,当此距离超过某一标准则认为原假设不正确,此标准是根据显著性水平通过查表来确定。越显著也就是显著性水平越高,检验标准越严格,接受原假设的区域越窄,如果要接受原假设则要求抽样值离原假设值越近,如0.1的显著性水平下要接受原假设要求的抽样值比在 0.05水平下接受原假设要求的抽样值离原假设值近。
14 协方差是二元变量(X ,Y )中X 和Y 之间线性关系强弱的度量指标,在统计中用于度量两个变量间线性关系的强弱(因此SPSS 的
COVARIANCE MATRIX 用于观察在度量单位相同的条件下各变量间相互关系的强弱)
,是根据样本点计算而得,其定义式为,但是这个定义式用于样本协方差的估计是有偏的,协方差的无偏估计量,如果协方差为大的正值则表示存在强烈的正相关关系,如果协方差为大的负值则表示存在强烈的负相关关系,但是用协方差作为线性关系强度的度量指标时,存在的一个严重问题是协方差的值依赖于X 和Y 的度量单位,如使用厘米为单位计算的协方差要大于使用米作单位计算的协方差。为避免这种麻烦用相关系数代替,相关系数的计算公式为。自变量和因变量之间的相关系数与用OLS 回归方程中自变量的系数不是一回事后者的计算公式为
,但是两者的符号是相同的。
15 为什么协方差能表示线性关系的强弱呢?因为如果以X=X 和Y=Y 将散点图分为四个象限,如果协方差为正,则对他有最大影响的点一定在一和三象限,因此协方差为正值表示X 与Y 之间存在正线性关系.也就是说,当X 增大时,Y 的值也增大.如果协方差为负,对它有
7 最大影响的点一定在二四象限。因此协方差为负就表明X 和Y 之间存在负线性关系。也就是说,当X 的值增大时,Y 的值减小。最后,如果各点是均匀分布在四个区域内,则协方差的值将接近于零,表示X 和Y 之间不存在线性关系。
第二章:计量经济学总论
1计量经济学的内容框架,包括最小二乘法基本原理、最小二乘法的假设条件和不满足假设条件时的处理办法三个大的部分。
最小二乘法的基本原理包括参数估计、估计参数的性质(BLUE )、估计结果的统计推断。首先是OLS 的原理,即最小二乘法是找一条线,使样本点与线之间距离的平方和最小,具体做法是首先假设一条线,然后求得用这条线的参数表示的距离的平方和,然后用求距离极值的一阶条件,求出这些参数,就得到了最小二乘法的估计结果,得到结果后就是对结果的统计推断,包括可决系数、T 检验、F 检验、以及假设条件是否满足前提假设的检验。
最小二乘法是在一系列假设的基础上进行的,这些假设主要是关于自变量与因变量关系、自变量间的关系,自变量与扰动项的关系、扰动项之间的关系。
接下来讨论的就是假设不满足的条件下的回归分析,包括的主要内容有非线性模型的线性化、特殊变量、异方差、自相关和多重共线性(概念、检验、原因、影响和处理办法)。
******最小二乘法的基本原理
最小二乘法是估计变量间相关关系的一种方法,变量间的相互关系总本而言有两种,其一是函数关系,其二是相关关系,变量间相互依赖相互影响,但是变量间所表现出的却不是确定的函数关系,如图,影响Y 的因素除了主要有X 之外,还有若干不重要的因素,把这些不确定的因素归并到一个变量中,建立变量之间关系的数学模型i i i Y a bX u =++,在这个数学模型中,a 和b 是有待估计的系数,最小二乘法就是估
计系数a 和b 的一种方法,具体的原理是,首先令X 和Y 之间的关系为??i i
Y a bX =+,然后把各个样本点的自变量值代入该式,计算出对应于各样本点的自变量i X 的因变量的值?i Y ,此?i
Y 是以?a 和?b 为参数的表达式,然后计算各样本点对应的i Y 与?i
Y 的差的平方和,该平方和是以?a 和?b 为参数的二元函数,接下来为了得到?a
和?b 的估计值就要求这个二元函数对?a 和?b 的偏导数,然后利用函数求极值的一阶条件,令二个偏导数分别等于0,然解方程组得到?a
和?b 的估计值,体现在图中是什么意思呢,就是找到一条最佳的线,使各样本点到该线的纵向距离的平方和最小,求得?a 和?b 的估计值分别为X b Y a ??-=,和∑∑=2
?i i i
x y
x b ,
由这两个估计式的形式可以发现,要先估计?b
后估计?a ,这两个式子中i x 表示第i 个样本点的自变量值与各样本点的自变量的均值的差,∑表示加和,这是最简单的一元线性回归模型的估计方法,也是最小二乘法的一个最简单的应用,对于多变量的最小二乘法与此基本一样。其中最关键的一点是通过求极值条件,将各个样本点所代表的自变量和因变量关系转化为关于估计系数的方程。
通过最小二乘法把a和b的值估计出来以后,接下来一个问题就是估计结果的准确性了。
①a和b的准确性,由各样本点得到的a和b的估计值,只是根据抽样得到的样本点计算的,不一定就是真值,要得到真值就必然根据总体中所有的样本点进行估计,而这通常是不可能的,如对于灯炮内所充惰性气体的量与灯泡寿命的关系,不可以把所有的灯泡都拿来做试验,这在经济上是不可行的,我们所能做的只是根据其分布情况进行统计推断,看看这个统计量是不是无偏的,有效的。所谓无偏就是估计值的数学期望等于真值,其含义可以近似的理解为当我们对做若干次试验后得到的估计值的均值就是真值,即Y和X的真实的关系。有效性就是估计值的方差最小,通过概率分析可以知道,OLS估计量是具有BLUE 的性质。
②a和b的显著性,根据概率论的知识可知,a和b是服从t分布的,并且其方差也可以根据概率论的知识计算得到,可以根据样本计算出a和b的t值,看估计得到的a和b是否具有统计显著性。
③a和b估计出以后的另一个问题是看这个方程的显著性和对Y的变化情况的解释力,这要通过F值
R来判断。
和2
④最后,还要回过头来总体的看一下这个回归的结果,首先就是要问你怎么知道X和Y之间就是一种线性关系,如果不是线性关系,又该怎么办。这也就牵扯到最小二乘法的假设。从假设可以演生出计量经济学的其他的主要内容。
1 回归分析研究一个变量对另一些变量的依赖关系,但他并不意味着因果关系。
2虚拟变量是指定性变量或者分类变量。
3在进行时间序列数据分析时首先要验证数据的平稳性,平稳是指一个时间序列的均值和方差在时间上都没系统性的变化,要看一时间序列是否平稳,可以计算一个时间段上的均值和方差然后与另一时间段上的均值与方差比较,如果相等则平稳否则不平稳。
4面板数据的缺点是异方差性,即样本中的样本点不是一帮人,相当于不能把苹果和桔子混同起来,如果必须把两者放在一起考虑如看水果的重量与光照的关系,可以加一个虚拟变量用以曲别苹果和桔子两种水果,时间序列数据的缺点是平稳性问题。
5通过经济数据了解经济变量的变化规律有时是存在相当大的局限性的,所以在建立模型时,必须依靠经济理论,同时对参数进行假设检验。
******不同回归方法的选择
在决定使用各种具体的回归方法之前,首先用OLS进行一下回归,然后根据回归的结果考察使用哪种具体的方法进行回归。
8
9 第三章:双变量回归分析
第3.1回归方法
******回归模型bx a Y +=中Y 是一个数学期望的概念,解释变量x 取某一个确定值i x 时(在回归模型中i x 不是随机的而是确定的值),因变量由于扰动项的原因可以取得若干个值,可以认为对应自变量i x 的因变量是一个随机变量,回归模型中的Y 是在自变量取i x 时因变量所有可能取值的数学期望,因此在回归模型中的)x E(Y Y i =,根据回归方程每一个因变量的值可以分为数学期望和扰动项两部分的和。
3 线性回归方程Y=B1+B2*X1的完整表示应该是E (Y |Xi ) =B 1+B 2Xi ,E (Y |Xi )表示给定X 值相应的(或条件的) Y 的均值,也就是说回归方程的因变量的值是当解释变量为某个值时因变量所有可能取值的均值。
4线性回归方程的线性有两方面的含义,其一为解释变量线性,其二为系数线性,也就是说方程右边只能是系数与解释变量的乘积,其中的任何一个都不能是任何的函数形式。
1在一般的情况下,回归模型中要含有截距项,这样做有如下两点好处,第一,尽管模型中含有截距项,但若该项的出现是统计上不显著的,则可以认为回归结果是一个过原点的回归模型。第二,如果实际模型中含有截距而我们的回归模型中无截距则我们的模型就有了设定模型错误。因此模型中要含有截距项。
2在双变量模型中,如果因变量与自变量的单位都是货币,那么以元为单位与万元为单位的回归结果中的斜率是相同的,不同的是截距项要根据度量单位的变化而相应的扩大或缩小计量单位之间换算比例倍,如果因变量与自变量单位不同,一个是元一个是公斤,那么换成吨后的斜率将会发生变化。
3双对数log-log 模型是指等号两边的变量都采取对数的形式,如i i i u blnX a lnY ++=,这个模型用于估计因变量对自变量的弹性,系数b 就是就表示Y 对X 的弹性。
4log-linear 模型是指等号左边是logY ,等号右边是bx 的形式,如i i i u bX a lnY ++=,用于测量X 变化1时Y 变化的百分比,其大小为b ,当X 表示时间时,b 为因变量的瞬时增长率。
5linear-log 模型是指等号左边为Y ,等号右边为i bLnX 的形式,如i i i u blnX a Y ++=,用于确定X 变化1%时,Y 变化的绝对量。
6回归系数的方差1var()b 、2var()b 的计算,每一个样本点都可由一个向量表示,该向量的分量由自变量和因变量构成,自变量和因变量相当于一个样本点的坐标,自变量是确定的值,因变量的数值是由自变量的值和扰动项决定的,对于每一个样本点在回归之前解释变量和因变量的关系虽然是未知的,但却是确定
10 的,因此,因变量的分布是由扰动项的分布决定的,根据扰动项的分布可以计算出因变量的分布,而回归的系数是由各样本点的自变量和因变量值确定的,因此,可以根据因变量的分布来计算出回归系数的分布,从而计算出这些系数的期望和方差。
7在计量中一个向量如无特殊说明都是指列向量。因为,通常情况下每个观察点都有一个自变量和因变量的关系方程,放在一起,各个变量对应一个列向量。
4在回归模型中,解释变量是确定的,对应每一个解释变量的值,因变量都是一个随机变量,因变量序列中有多少个CASE 则对应的有多少个作为随机变量的因变量,只所以是随机变量,是因为扰动项是随机变量。
2用最小二乘法估计的方程的系数是线性无偏一致最小估计量,最小是指方差最小,极大似然估计法也是估计方程系数的方法但其结果是有偏的不如最小二乘法的结果好。
第3.2结果检验
由于回归的结果是根据样本计算出的估计值,因此必须要检验其统计可靠性,统计可靠性的检验分为系数可靠性的检验和方程可靠性的检验,前者主要是t 检验,后者主要是F 检验和2R ,进行统计检验的前提条件就是要知道待检验变量的分布情况,这也是3.3的主要内容。
******对于一个样本总体因变量和自变量之间存在着一个总体回归函数,即在样本中包含总体中的所有的点时自变量与因变量之间的关系,这种关系是肯定存在的,但是由于在样本中不可能包括总体中的所有点,只能根据样本回归函数来代替总体回归函数,并且根据样本数据回归出的样本回归函数只能是总体回归函数的一个近似,并且不同的样本得到的样本回归函数不同,这就使得回归函数中的系数可以取得若干个值,因此就有了在SPSS 回归结果中的某个回归系数的方差指标的由来,不同的样本回归函数对样本中因变量与自变量的关系的解释力不同,解释力的大小用R 2指标来衡量。
******因变量各个值与其均值的离差的平方和TSS 可以分解为估计的Y 值围绕其均值的离差的平方和ESS 加上残差的平方和RSS=2i u ∑,即TSS =2i y ∑ESS +RSS =2i 2i 2u x b ∑+∑,即因变量的观测值围绕其均值的变异可以分为两部分,一部分来自回归线,这部分相当于固定的,另一部分来自随机势力,回归结果好坏的统计指标TSS
ESS R 2=,当两个模型的因变量不同如一个是Y 另一个是LnY 时2R 不具有可比性。
1置信区间是在区间估计时用到的一个概念,求一个参数的置信区间首先根据样本计算出该参数的点估计值,然后再加减对应显著性水平的一段区间,这段区间通常是根据样本计算出的标准误的多少倍,具体多少倍要根据显著性水平确定。
11
2在用OLS 等方法估计出系数的数值后,还要检验一下这个点估计值是否是真值为0的情况下的一个随机值,也就是这个估计值可以在真值为0的情况下由于扰动项的原因而出现,如果检验的结果是估计值不可能在真值为0的情况下由于扰动项的原因而出现,那么就认为估计值是显著的。检验方法有两种,一种是置信区间检验法,即看在真值为0,标准误为根据样本计算出的标准误的情况下,根据显著性水平确定一个置信区间如果,估计值落在置信区间的外面则拒绝原假设认为真值不为0,估计值显著,由于显著性水平越低时对应的置信区间越长,因此在越低的显著性水平上拒绝原假设则估计值的显著性水平越高;第二种方法是T 值和F 值检验法,如果根据估计值和原假设值以及标准误计算出的T 值或F 值大于在规定显著性水平下,由T 值或F 值表查出的值,则拒绝原假设认为估计值是显著的。
3统计显著的概念 在统计学中,当我们拒绝虚拟假设时,我们说我们的发现是统计上显著的,反之,我们不拒绝虚拟时,我们说我们的发现不是统计上显著的。
4根据原假设和调查数据估计出的系数计算出的该系数的t 值越大,表示离原假设中该系数的假设值越远,越应拒绝原假设,估计的系数越显著。t 值可以理解为估计值距离原假设值几个标准误的距离。
5方差分析(ANOV A, analysis of variance)是指对因变量与其均值的离差的平方和TSS 的构成部分进行分析,给出的最终结果是F 值,以及这个F 值的精确显著性水平,F 值是ESS 除以其自由度1与RSS 除以其自由度n-1的比值,如果F 值大于由F 值表中查到的在参考显著性水平下的临界值,或者是这个F 值的精确显著性水平小于参考的显著性水平,就认为F 值显著,表明估计方程中所有参数不能同时为0,估计方程有意义。
第3.3回归参数的分布
最小二乘法的回归结果,都是根据样本的自变量和因变量估计的,根据假设可知样本的自变量是确定的数值,样本的因变量的数值为i i i Y a bX u =++,其中的a 和b 代表X 和Y 之间关系的系数的真值,虽然不知道但却是一个确定的数值,i X 是已知的确定数值,i Y 是与i u 服从相同分布的随机变量,因此,根据样本的自变量和因变量值估计的系数和残差也是服从一定分布的,在假定i u 服从正态分布的条件下,这些估计量都是服从正态分布的。
******回归系数的估计值及其分布
根据样本用OLS 可以估计线性回归方程Y a bX u =++的系数a 、b ,它们是根据样本数据计算而得,
因此a 、b 是样本统计量,其无偏估计值分别为?a
、?b 2
2()()cov(,)?()()()i i i i i i X X Y Y X X X Y b Y Var X X X X X ??---=== ? ?--??
∑∑∑∑ ??a
Y bX =-
正在阅读:
很好的计量经济学读书笔记04-30
《呐喊》读后感04-18
我国物流人才培养的关键问题分析及解决途径12-23
2019年秋最新部编湘教版三年级语文上全册优质教学设计教案(湖南版)12-23
圆精典培优竞赛题(含详细答案)04-23
手自一体的正确驾驶技巧05-23
电工电子技术课后答案12-01
04-18种BACnet对象说明08-07
2015版质量环境管理体系内审检查表范例05-12
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 计量经济学
- 笔记
- 读书
- 九年级语文上册第四单元综合检测试卷新人教版
- 高一上学期语文期末考试试卷第31套真题
- 高中生怎样写好自我介绍五篇
- 物理知识点高中物理 《实验 探究功与物体速度变化的关系》导学案 新人教版必修2【精品教案】
- 山东省济南外国语学校2020届高三下学期质量检测物理试题含解析【附15套高考模拟卷】
- 2021年暨南大学847社会研究方法B考研精品资料之仇立平《社会学研究方法》考研核心题库之综合题精编
- 淄川区技术难题项目需求及人才需求汇编
- CMOS模拟集成电路版图设计基础教程 V
- 河南省安阳市中考化学100实验题专项训练
- 2014年特岗教师招聘考试预测试题及答案五
- (完整版)幼儿园小班教师个人工作总结
- 贵州省铜仁市玉屏县普通高中招生数量情况3年数据分析报告2020版
- 康复科针灸推拿科门诊设置
- 参观南京大屠杀纪念馆心得体会 5篇
- 2020年新编企业安保档案管理细则
- 第一学期六年级语文期末考试试卷有附加题
- 年产6万吨无碱池窑玻璃纤维生产线项目可行性研究报告
- 电气安全的基本知识示范文本
- 巴布科克能源(BabcockPower)公司利用PTC的数字化模型定义优化器大幅提升竞争优势
- 2019高中生军训感言800字范文