多元线性回归

更新时间：2024-02-02 08:21:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

多元线性回归模型

一、多元线性回归模型的一般形式

设随机变量y与一般变量x1,x2,?,xp的线性回归模型为：

y??0??1x1??2x2????pxp?? 其中：

写成矩阵形式为：y?X???

?1?y1????1y2???y? X?????????y??n??1x11x21?xn1x12x22?xn2???x1p???0???1??????x2p?1?? ???? ???2?

?????????????xnp?????n???p??二、多元线性回归模型的基本假定

1、解释变量x1,x2,?,xp是确定性变量，不是随机变量，且要求

ran(kX)?p?1?n。这里的rank(X)?p?1?n表明设计矩阵X中自变量列之间

不相关，样本容量的个数应大于解释变量的个数，X是一满秩矩阵。

E(?i)?0,i?1,2,?,n????2,i?j2、随机误差项具有0均值和等方差，即：?

cov(?i,?j)??,(i,j?1,2,?,n)??0,i?j?E(?i)?0，即假设观测值没有系统误差，随机误差?i的平均值为0，随机误差?i的协方差为0表明随机误差项在不同的样本点之间是不相关的（在正态假定下即

为独立），不存在序列相关，并且具有相同的精度。

??i~N(0,?2),i?1,2,?,n2?~N(0,?In),3、正态分布的假定条件为：，矩阵表示：???1,?2,??n相互独立由该假定和多元正态分布的性质可知，随机变量y服从n维正态分布，回归模型的期望向量为：E(y)?X?；var(y)??2In 因此有y~N(X?,?2In) 三、多元线性回归方程的解释

对于一般情况含有p个自变量的回归方程E(y)??0??1x1??2x2????pxp的解释，每个回归系数?i表示在回归方程中其他自变量保持不变的情况下，自变量xi每增加一个单位时因变量y的平均增加程度。因此通常把多元线性回归的回归系数称为偏回归系数。下面看个例子，考虑国内生产总值GDP和三次产业增加值的关系，这个问题中GDP=x1?x2?x3是确定性的函数关系，可以看作误差项为

0的特殊回归关系。3个回归系数都是1，对?2解释为第二产业增加值x2每增加1亿元GDP也增加1亿元。假设做GDP对x2的一元线性回归，得到回归方程为

??5289.9?1.8554x2，对这个方程回归系数的解释是第二产业增加值每增加1y亿元GDP增加1.8554亿元。两个回归方程对同样的经济现象给出了不同的解释，问题出在什么地方呢？多元回归系数表示在回归方程中其他自变量保持不变的情况下，相应自变量每增加一个单位时因变量的平均增加速度。因此在用多元回归方程GDP=x1?x2?x3解释?2=1时，一定要强调是在x1和x3保持不变的情况下，

??5289.9?1.8554x2解x2每增加1亿元GDP也增加1亿元。在用一元回归方程y释回归系数时，要强调的是在方程之外的有关变量也相应变化时x2每增加1亿元GDP增加1.8554亿元。GDP增加的1.8554亿元中x2的直接贡献只用1亿元，回归方程外的x1和x3的贡献是0.8554亿元。这里又出现一个问题，为什么回归方程外的x1和x3贡献是0.8554亿元，而不是2亿元呢？可以通过考察数据，x2的增加幅度远大于x1和x3的增加幅度，假如x2增加1亿元，x1和x3相应的增加幅度都达不到1亿元。四、参数估计

要想用OLSE估计多元线性回归模型的未知数，样本容量必须不少于模型中参数的个数。

在正态假定下，回归参数?的MLE（最大似然估计）与OLSE（最小二乘估计）

2?完全相同，即???(X?X)?1X?y，误差项方差?2的MLE为??L1nSSE?1n(e?e)，这

是?2的有偏估计，但它满足一致性，在大样本的情况下，是?2的渐近无偏估计量。

参数估计量的性质：

性质1，??是随机向量y的一个线性变换性质2，??是?的无偏估计性质3，D(??)??2(X?X)?1

性质4，高斯-马尔科夫（G-M）定理

（1）c???是c??的无偏估计

（2）c???的方差要小

高斯-马尔科夫定理在假定E(y)?X?,D(y)??2In时，?的任一线性函数

?，其中c是任一p+1维常数向量，??是?的c??的最小方差线性无偏估计为c??最小二乘估计。

此定理说明了用OLSE估计得到的估计量??是理想的估计量。关于这条性质，

需要注意以下四点：

第一，取常数向量c的第j（j?0,1,?,p）分量为1，其余分量为0，这时

?是?的最小方差线性无偏估计。 G-M定理表明最小二乘估计?jj

第二，可能存在y1,y2,?,yn的非线性函数，作为c??的无偏估计，比最小二

乘估计c???的方差更小。

第三，可能存在c??的有偏估计量，在某种意义（例如均方差最小）下比最

小二乘估计c???更好。

第四，在正态假定下，c???是c??的最小方差无偏估计。

性质5，cov(??,e)?0，在正态假定下??与e不相关等价与??与e独立，从而??与SEE=e?e独立。性质6，当

?~N(?,?2(X?X)?1)??y~N(X?,?In)时，则?22?SEE?~?(n?p?1)2

五、自变量的显著性

如何剔除多余的不显著的自变量？y对自变量x1,x2,?,xp线性回归的残差平方和为SSE，回归平方和为SSR，在剔除掉xj后，用y对其余的p-1个自变量作回归，所得的残差平方和记为SSE(j)，回归平方和为SSR(j)，则自变量xj对回归的

贡献为：?SSR(j)?SSR?SSR(j)，称为xj的偏回归平方和。由此可以构造偏F统计量：Fj??SSR(j)1SSE(n?p?1)，当原假设H0j:?j?0成立时，偏F统计量Fj服从

自由度为（1，n-p-1）的F分布，此F检验与回归系数的t检验是一致的，当从回归方程中剔除变量时，回归平方和减少，残差平方和增加。反之，当往回归方程中引入变量时，回归平方和增加，残差平方和减少，两者的增减量同样相等。六、关于拟合优度

R2?SSRSST,R2与回归方程中自变量的数目以及样本容量n有关，当样本容量n

与自变量个数接近时，R2易接近1，其中隐含着一些虚假成分。由R2决定模型优劣时还需慎重。七、中心化和标准化

因为多元回归涉及的数据量很大，就可能由于舍入误差而使计算结果不理想。产生舍入误差有两个主要原因，一是回归分析计算中数据量级有很大差异，比如数据10000与0.1111这样的大小相差悬殊的数据出现在同一个计算中；二是设计矩阵X 的列向量近似线性相关时，X?X为病态矩阵，其逆矩阵(X?X)?1就会产生较大的误差。 1、中心化

多元线性回归模型的一般形式为:y??0??1x1??2x2????pxp??

????x???x?????x ???其经验回归方程为:y01122pp此经验方程进过样本中心(x1,x2,?,xp;y),将坐标原点移至样本中心，即作坐标

??xij?x变换：xijyi??yi?yi?1,2,?,n;j?1,2,?,p上述经验方程即

????x????x??????x?即为中心化经验回归方程。中心化经验????转变为：y01122pp?保持不变，回归方程的常数项为0，而回归系数的最小二乘估计值?因为坐标系j平移变化只改变直线的截距，不改变直线的斜率。

2、标准化回归系数

为了消除量纲不同和数量级的差异所带来的影响，就需要将样本数据作标准化处理，然后用最小二乘法估计未知参数，求得标准化系数。

??样本数据标准化公式：xijxij?xjLjjnijyi??yi?yLyy2i?1,2,?,n;j?1,2,?,p

n其中：Ljj??(xi?1?xj)2，Lyy??(yi?1i?y)

标准化回归系数与最小二乘回归系数之间存在关系式：???j?LjjLyy? ?j?表示在其他变量不变的情况下，自变量x的每单位的绝对普通最小二乘估计?jj??表示自变量x的1%相变化引起的因变量均值的绝对变化量。标准化回归系数?jj对变化（相对于Ljj）引起的因变量均值的相对变化百分数（相对于Lyy）。

标准化回归系数是比较自变量对y影响程度相对重要性的一种较为理想的方法，有了标准化回归系数后，变量的相对重要性就容易进行比较了。但是，仍要注意对回归系数的解释须采取谨慎的态度，这是因为当自变量相关时会影响标准化回归系数的大小。八、相关阵与偏相关系数 1、样本相关阵

负相关系数R反映了y与一组自变量的相关性，是整体和共性指标，简单相关系数反映的是两个变量见的相关性，是局部和个性指标。在分析问题时，应该本着整体与局部相结合，共性与个性相结合的原则。求出y与每个自变量xi的相关系

?1?r?1yr??r2y数ryi，得到增广的样本相关阵为：~????r?pyry11r21?rp1ry2r121?rp2????ryp??r1p?r2p????1??

2、偏决定系数

在多元线性回归分析中，当其他变量被固定后，给定的任两个变量之间的相关系数，叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,?,xp之中任意两个变量的线性相关程度，而这种相关程度是在固定其余p-1个变量的影响下的线性相关。偏决定系数测量在回归方程中已包含若干个自变量时，再引入某一个新的自变量时，y的剩余变差的相对减少量，它衡量某个自变量对y的变差减少的边际贡献。

（1）两个自变量的偏决定系数

二元线性回归模型为：yi??0??1xi1??2xi2??i，i?1,2,?,n

记SSE(x2)是模型中只含有自变量x2时y的残差平方和，SSE（x1，x2）是模型中同时含有自变量x1和x2时y的残差平方和。模型中已含有x2时，再加入x1使y的剩余变差的相对减小量为：ry21,2?时，y与x1的偏决定系数。（2）一般情况

在模型中含有x2,?,xp时，y与x1的偏决定系数为：

ry1;2,?,p?2SSE(x2)?SSE(x1,x2)SSE(x2)此时模型中已含有x2SSE(x2,?,xp)?SSE(x1,x2,?,xp)SSE(x2,?,xp)，偏决定系数与回归系数显著性检验

的偏F值是等价的。 3、偏相关系数

偏决定系数的平方根称为偏相关系数，其符号与相应的回归系数的符号相同。偏相关系数与回归系数显著性检验的t值是等价的。下面看一个例子： x1 25 20 6 1001 525 825 120 28 x2 3547.79 896.34 750.32 2087.05 1639.31 3357.7 808.47 520.27 y 553.96 208.55 3.1 2815.4 1052.12 3427 442.82 70.12 x1 7 532 75 40 187 122 74 x2 671.13 2863.32 1160 862.75 672.99 901.76 3546.18 y 122.24 1400 464 7.5 224.18 538.94 2442.79 对上面的数据做二元线性回归得到结果如下所示： Model Summary Adjusted R Model 1 R .918 aStd. Error of the Estimate R Square .842 Square .816 475.75182 a. Predictors: (Constant), x2, x1 偏相关系数表 Unstandardized Coefficients (Constant) x1 x2 B -327.039 2.036 0.468 Std. Error 218.001 0.438 0.123 Standardized Coefficients Beta t -1.5 0.594 0.485 4.649 3.799 Sig. 0.159 0.001 0.003 Correlations Zero-order Partial 0.807 0.746 0.802 0.739 a. Dependent Variable: y 从输出结果可以看到，两个偏相关系数分别为ry1;2=0.802，ry2;1=0.739，进一步计算偏决定系数ry21;2=0.802^2=0.643, ry22;1=0.739^2=0.546，表中相关系数栏的Zero-order为y与xi的简单相关系数，分别为ry1=0.807，ry2=0.746，两个决定系数分别为ry21=0.807^2=0.651,ry22=0.746^2=0.557。

以上数据表明，用y与x1作一元线性回归时，x1能消除y的变差SST的比例为

ry1=0.651=65.1%，再引入变量x2时，x2能消除剩余变差SSE(x1)的比例为

ry2;1=0.546=54.6%,因而自变量x1和x2消除y变差的总比例为(1-ry1)(1-ry2)

2222=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的决定系数R2.

偏相关系数反映的是变量间的相关性，任意p个变量x1,x2,?,xp定义它们之间的偏相关系数。记rij?LijLii?Ljj。再看一个例子说明偏相关系数和简单相关系数

的关系。分别以x1表示商品的销售量，x2表示消费者人均可支配收入，x3表示商品价格。从经验上看，销售量与消费者的人均可支配收入之间应该有正相关，简单相关系数r12应该是正的。但是如果计算出的r12是个负数也不要感到惊讶，这是因为还有其他没有被固定的变量在发挥影响，例如商品的价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。如果计算出的偏相关系数r12;3仍然是个负数的话，是什么原因呢？肯定是还有需要考虑而没有考虑的重要变量，也就是没有被固定的变量，会是什么变量？如果这种商品已经进入淘汰期正在被其他商品所取代的，那么计算出负的r12;3也就不奇怪了。在多元回归中，应该注意简单相关系数只是两个变量局部的相关性质，而并非整体的性质。所以在多元线性回归分析中我们并不看重简单相关系数，而认为偏相关系数才是真正反映因变量y与自变量xi以及自变量xi与xj的相关性的数量。根据偏相关系数，可以判断哪些自变量对因变量的影响较大，而选择必须考虑的变量，对于那些对因变量影响较小的自变量，则可以舍去不顾，所以在剔除某个自变量时，可以结合偏相关系数考虑。

本文来源：https://www.bwwdw.com/article/jj2w.html

相关文章：

正在阅读：

多元线性回归02-02

大陆封锁政策09-17

中学20XX--20XX学年度数学教研组计划11-29

创新创业领导力2015 考试满分答案03-16

古诗词收集活动总结09-17

上一篇：电大期末考试网络实用技术基础复习资料总核 - 图文下一篇：八年级英语下册首字母填空练习(1)