应用回归分析课后答案

更新时间:2024-05-06 22:05:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

应用回归分析课后答案

第二章 一元线性回归

2.14 解答:EXCEL结果:

SUMMARY OUTPUT

回归统计

Multiple R 0.944911 R Square 0.892857 Adjusted R Square 0.857143

0.597614 标准误差

5 观测值

方差分析

df SS MS

1 8.928571 8.928571 回归分析

3 1.071429 0.357143 残差

4 10 总计

Coefficients 标准误差 t Stat

Intercept -0.21429 0.6962 -0.30779 X Variable 1 0.178571 0.035714 5 RESIDUAL OUTPUT

观测值 预测 Y 残差

1 1.571429 -0.57143 2 1.571429 0.428571 3 3.357143 -0.35714 4 3.357143 0.642857 5 5.142857 -0.14286

SPSS结果:(1)散点图为:

F Significance F

25 0.015392

P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0% 0.778371 -2.4299 2.001332 -2.4299 2.001332 0.015392 0.064913 0.29223 0.064913 0.29223

(2)x与y之间大致呈线性关系。 (3)设回归方程为y??0??1x

???? ?1=

?xy?nxyiin???xi?1i?1n2i?n(x)2??7

?0?y??1x?20?7?3??1

?可得回归方程为y??1?7x

?1n(4)??(yi?yi) ?n-2i=1??1n ??(yi?(?0??1x))

n-2i=1222?10-(-1+7?1))??(10-(-1+7?2))?(20-(-1+7?3))1( =?? 223??(20-(-1+7?4))?(40-(-1+7?5))??????2221?16?9?0?49?36?

3?110/3?1

???1330?6. 13?(5)由于?1?N(?1,?2Lxx?)

t??1??1?/Lxx2?(?1??)Lxx??

服从自由度为n-2的t分布。因而

???(???)LxxP?|1?|?t?/2(n?2)??1?? ?????也即:p(?1?t?/2???Lxx???1??1?t?/2??Lxx?)=1??

1133,7+2.353?33) 33可得?1的置信度为95%的置信区间为(7-2.353?即为:(2.49,11.5)

?0?1(x)22N(?0,(?)?)

nLxx?t??0??01(x)2?2(?)?nLxx????0??0???1(x)2?nLxx?

服从自由度为n-2的t分布。因而

????????0??0P?||?t?/2(n?2)??1??

???1(x)2?????nL??xx??即p(?0?????1(x)?t?/2??0??0??nLxx???21(x)2?t?/2)?1?? nLxx?可得?1的置信度为95%的置信区间为(?7.77,5.77)

2

(6)x与y的决定系数r?2?(y?y)ii?1n?ii?1n??2?490/600?0.817

2?(y?y)(7) ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 9.000 8.167 .833 1.000 10.000 df 2 1 1 2 4 均方 4.500 8.167 .833 .500 F 9.000 16.333 1.667 显著性 .100 .056 .326 由于F?F?(1,3),拒绝H0,说明回归方程显著,x与y有显著的线性关系。

(8)t??1?/Lxx?2???1Lxx????1n21n 其中??(yi?yi) ?ei?n?2?n?2i?1i?1?22 ?7?1021??3.66

1333303t?/2?2.353 t?3.66?t?/2

?接受原假设H0:?1?0,认为?1显著不为0,因变量y对自变量x的一元线性回归成立。

(9)相关系数 r??(x?x)(y?y)iii?1n???(x?x)?(y?y)2iii?1i?1n?n??LxyLxxLyy

=707??0.904

10?600603

r小于表中??1%的相应值同时大于表中??5%的相应值,?x与y有显著的线性关系.

(10) 序号 1 2 3 4 5 残差图为: x 1 2 3 4 5 y 10 10 20 20 40 y ?e 4 -3 0 -7 6 6 13 20 27 34 从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。

置信度为95%的置信区间 (11)当广告费x0=4.2万元时,销售收入y0?28.4万元,近似为y?2?,即(17.1,39.7)

2.15 解答:

(1) 散点图为:

??4

(2)x与y之间大致呈线性关系。 (3)设回归方程为y??0??1x

??? ?1=

??xy?nxyiin???xi?1i?1n2i?n(x)2??(26370?21717)?0.0036

(7104300?5806440)?0?y??1x?2.85?0.0036?762?0.1068

?可得回归方程为y?0.1068?0.0036x

?1n(4) ??(yi?yi) ?n-2i=1??1n ??(yi?(?0??1x))

n-2i=12?22????5

=0.2305

??0.4801

(5) 由于?1???N(?1,?2Lxx)

t??1??1?/Lxx2?(?1??)Lxx???

服从自由度为n-2的t分布。因而

???(???)L1xxP?||?t?/2(n?2)??1?? ??????也即:p(?1?t?/2???Lxx???1??1?t?/2??Lxx?)=1??

可得?1的置信度为95%的置信区间为

(0.0036-1.860?0.4801/1297860,0.0036+1.860?0.4801/1297860)即为:(0.0028,0.0044)

?0?1(x)22N(?0,(?)?)

nLxx?t??0??01(x)2?2(?)?nLxx????0??0???1(x)2?nLxx?

服从自由度为n-2的t分布。因而

????????0??0P?||?t?/2(n?2)??1??

???1(x)2?????nLxx????即p(?0??

??1(x)?t?/2??0??0??nLxx???21(x)2?t?/2)?1?? nLxx6

?

可得?1的置信度为95%的置信区间为(?0.3567,0.5703)

?(6)x与y的决定系数 r?2?(y?y)ii?1n?ii?1n??2?2?(y?y)(7) 16.82027=0.908

18.525ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 1231497.500 1168713.036 62784.464 66362.500 1297860.000 df 7 1 6 2 9 均方 175928.214 1168713.036 10464.077 33181.250 F 5.302 35.222 .315 显著性 .168 .027 .885 由于F?F?(1,9),拒绝H0,说明回归方程显著,x与y有显著的线性关系。

(8) t??1?/Lxx?2???1Lxx????1n21n 其中??ei?(yi?yi) ??n?2i?1n?2i?1?22 ?0.003?61297860?8.54 20.04801t?/2?1.895 t?8.542?t?/2

?接受原假设H0:?1?0,认为?1显著不为0,因变量y对自变量x的一元线性回归成立。

(9) 相关系数 r??(x?x)(y?y)iii?1n???(xi?x)2?(yi?y)i?1i?1n?n??LxyLxxLyy =4653?0.9489

1297860?18.5257

r小于表中??1%的相应值同时大于表中??5%的相应值,?x与y有显著的线性关系. (10) y x e 序号 ?y 1 2 3 4 5 6 7 8 9 10 825 215 1070 550 480 920 1350 325 670 1215 3.5 1 4 2 1 3 4.5 1.5 3 5 3.0768 0.8808 3.9588 2.0868 1.8348 3.4188 4.9688 1.2768 2.5188 4.4808 0.4232 0.1192 0.0412 -0.0868 -0.8348 -0.4188 -0.4668 0.2232 0.4812 0.5192

从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。

(11)新保单x0?1000时,需要加班的时间为y0?3.7小时。

(12)y0的置信概率为1-?的置信区间精确为y0?t?/2(n?2)1?h00?, 即为(2.7,4.7)

近似置信区间为:y0?2?,即(2.74,4.66)

(13)可得置信水平为1-?的置信区间为y0?t?/2(n?2)h00?,即为(3.33,4.07). 2.16 (1)散点图为:

???????8

可以用直线回归描述y与x之间的关系. (2)回归方程为:y?12112.629?3.314x (3)

? 9

从图上可看出,检验误差项服从正态分布。

第三章 多元线性回归

3.11 初始数据:

y x1 编号

1 160 2 260 3 210 4 265 5 240 6 220 7 275 8 160 9 275 10 250

x2 70 75 65 74 72 68 78 66 70 65

x3 35 40 40 42 38 45 42 36 44 42

10

1 2.4 2 3 1.2 1.5 4 2 3.2 3

解:(1)用SPSS算出y,x1,x2,x3相关系数矩阵: 相关性 Pearson 相关性 y x1 x2 x3 y x1 x2 x3 N y x1 x2 x3 y 1.000 .556 .731 .724 . .048 .008 .009 10 10 10 10 x1 .556 1.000 .113 .398 .048 . .378 .127 10 10 10 10 x2 .731 .113 1.000 .547 .008 .378 . .051 10 10 10 10 x3 .724 .398 .547 1.000 .009 .127 .051 . 10 10 10 10 r=所以~

系数 模型 非标准化系数 B 1 (常量) 标准系数 t Sig. -1.974 B 的 95.0% 置信区间 下限 上限 零阶 相关性 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 176.459 -348.280 .096 -780.083.500 60 .556 .731 .724 .825 .687 .586 1.211 1.455 1.708 x1 x2 x3 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .535 2.465 .277 1.178 .100 .049 -.977 8.485 .053 14.149 .621 .350 .709 .444 .433 .212 .284 -13.4138.310 5 a. 因变量: y (2)

???348.28?3.754x1?7.101x2?12.447x3 所以三元线性回归方程为y11

模型汇总 模型 R 1 .898 a标准 估计的R 方 .806 调整 R 方 .708 误差 23.44188 R 方更改 .806 F 更改 8.283 更改统计量 df1 3 df2 6 Sig. F 更改 .015 a. 预测变量: (常量), x3, x1, x2。 (3) 由于决定系数R方=0.708 R=0.898较大所以认为拟合度较高

(4)

Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 549.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y

因为F=8.283 P=0.015<0.05所以认为回归方程在整体上拟合的好

(5)

系数 模型 非标准化系数 B 1 (常量) x1 x2 x3 a. 因变量: y 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .100 .535 2.465 .049 .277 1.178 .284 -.977 .053 -13.415 8.485 14.149 38.310 .556 .731 .724 .621 .709 .433 .350 .444 .212 .825 1.211 .687 1.455 .586 1.708 -348.280 标准 误差 176.459 标准系数 试用版 t Sig. 下限 -780.060 B 的 95.0% 置信区间 上限 83.500 零阶 相关性 偏 部分 共线性统计量 容差 VIF a-1.974 .096

(6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。

12

去除x3后作F检验,得: Anova 模型 1 回归 残差 总计 平方和 12893.199 4059.301 16952.500 df 2 7 9 均方 6446.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y

由表知通过F检验 继续做回归系数检验 系数 模型 非标准化系数 B 1 (常量) -459.624 x1 x2 4.676 8.971 标准系数 t Sig. B 的 95.0% 置信区间 相关性 下限 -821.547 .381 3.134 上限 -97.700 8.970 14.808 零阶 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 153.058 1.816 2.468 .479 .676 -3.003 .020 2.575 3.634 .037 .008 .556 .731 .697 .808 .476 .672 .987 1.013 .987 1.013 a. 因变量: y

此时,我们发现x1,x2的显著性大大提高。

(7)x1:(-0.997,8.485) x2:(0.053,14.149) x3:(-13.415,38.310)

?*?0.385x1*?0.535x2*?0.277x3* (8)y(9) 残差统计量 a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差

极小值 175.4748 -1.438 10.466 188.3515 -25.19759 -1.075 -2.116 极大值 292.5545 1.567 20.191 318.1067 33.22549 1.417 1.754 13

均值 231.5000 .000 14.526 240.1835 .00000 .000 -.123 标准 偏差 38.95206 1.000 3.127 49.83914 19.14022 .816 1.188 N 10 10 10 10 10 10 10 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: y -97.61523 -3.832 .894 .000 .099 50.88274 2.294 5.777 3.216 .642 -8.68348 -.255 2.700 .486 .300 43.43220 1.658 1.555 .976 .173 10 10 10 10 10

所以置信区间为(175.4748,292.5545)

(10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好

3.12 解:在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。

在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每增加一个单位,GDP就增加1.709个单位。

第四章 违背基本假设的情况

4.9 初始数据:

y 用户序号 x

1 679 2 292 3 1012 4 493 5 582 6 1156 7 997 8 2189 9 1097 10 2078 11 1818 12 1700 13 747 14 2030 15 1643 16 414 17 354

0.79 0.44 0.56 0.79 2.7 3.64 4.73 9.5 5.34 6.85 5.84 5.21 3.25 4.43 3.16 0.5 0.17

14

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

解:

1276 1.88 745 0.77 435 1.39 540 0.56 874 1.56 1543 5.28 1029 0.64 710 4 1434 0.31 837 4.2 1748 4.88 1381 3.48 1428 7.58 1255 2.63 1777 4.99 370 0.59 2316 8.19 1130 4.79 463 0.51 770 1.74 724 4.1 808 3.94 790 0.96 783 3.29 406 0.44 1242 3.24 658 2.14 1746 5.71 468 0.64 1114 1.9 413 0.51 1787 8.33 3560 14.94 1495 5.11 2221 3.85 1526

3.93

15

系数 模型 非标准化系数 B 1 (常量) x a. 因变量: y -.831 .004 标准 误差 .442 .000 标准系数 试用版 t -1.882 .839 11.030 Sig. .065 .000 a ?=-0.831+0.004x 由SPSS计算得:y残差散点图为:

(2)由残差散点图可知存在异方差性 再用等级相关系数分析: 相关系数 Spearman 的 rho x 相关系数 x 1.000 16

t .318 *

Sig.(双侧) N t 相关系数 Sig.(双侧) N *. 在置信度(双测)为 0.05 时,相关性是显著的。 . 53 .318 .021 53 *.021 53 1.000 . 53

P=0.021 所以方差与自变量的相关性是显著的。 (3)

模型描述

因变量 自变量 权重

1 源 幂值

模型: MOD_1.

y x x

1.500

M=1.5时可以建立最优权函数,此时得到: ANOVA 回归 残差 总计 平方和 .006 .003 .009 df 1 51 52 均方 .006 .000 F 98.604 Sig. .000 系数 (常数) x 未标准化系数 B -.683 .004 标准误 .298 .000 标准化系数 试用版 标准误 t -2.296 .082 9.930 Sig. .026 .000 .812

??-0.683+0.004x 所以:y(4)

系数

a

17

模型 非标准化系数 B 1 (常量) x a. 因变量: yy .582 .001 标准 误差 .130 .000 标准系数 试用版 t 4.481 .805 9.699 Sig. .000 .000

4.13初始数据:

x y 序号

1 127.3 2 130 3 132.7 4 129.4 5 135 6 137.1 7 141.1

20.96 21.4 21.96 21.52 22.39 22.76 23.48

18

8 9 10 11 12 13 14 15 16 17 18 19 20

142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 172

23.66 24.1 24.01 24.54 24.28 25 25.64 26.46 26.98 27.52 27.78 28.24 28.78

解: (1) 系数 模型 非标准化系数 B 1 (常量) x a. 因变量: y -1.435 .176 标准 误差 .242 .002 标准系数 试用版 t -5.930 .999 107.928 Sig. .000 .000 a

?=-1.435+0.176x y(2) 模型汇总 模型 R 1 .999 ab标准 估计的误R 方 .998 调整 R 方 .998 差 .09744 Durbin-Watson .663 a. 预测变量: (常量), x。 b. 因变量: y

DW=0.663 查DW分布表知:dL=0.95 所以DW

19

残差图为:

et随t的变化逐次变化并不频繁的改变符号,说明误差项存在正相关。

?=1-0.5*DW=0.6685 计算得: (3)?Y’ x’ 7.39 44.90 7.65 45.80 6.84 40.69 8.00 48.50 7.79 46.85 8.26 49.45 7.96 48.47 8.28 50.04 7.90 48.03 8.49 51.17 7.88 47.26 8.77 52.33 8.93 52.69 9.32 54.95 9.29 55.54 9.48 56.77 9.38 55.83 9.67 58.00 9.90 59.22

20

模型汇总 模型 R 1 .996 ab标准 估计的误R 方 .993 调整 R 方 .993 差 .07395 Durbin-Watson 1.344 a. 预测变量: (常量), xx。 b. 因变量: yy 系数 模型 非标准化系数 B 1 (常量) xx a. 因变量: yy -.303 .173 标准 误差 .180 .004 标准系数 试用版 t -1.684 .996 49.011 Sig. .110 .000 a ?'=-0.303+0.173x’ 得回归方程 y?t=-0.303+0.6685yt?1+0.173(xt—0.6685xt?1) 即:y(4)

模型汇总 模型 R 1 .978 ab标准 估计的误R 方 .957 调整 R 方 .955 差 .07449 Durbin-Watson 1.480 a. 预测变量: (常量), x3。 b. 因变量: y3 系数 模型 非标准化系数 B 1 (常量) x3 .033 .161 标准 误差 .026 .008 标准系数 试用版 t 1.273 .978 21

19.528 Sig. .220 .000 a 系数 模型 非标准化系数 B 1 (常量) x3 a. 因变量: y3 .033 .161 标准 误差 .026 .008 标准系数 试用版 t 1.273 .978 19.528 Sig. .220 .000 a

△yt=0.033+0.161△xt

?t=0.033+yt?1+0.161(xt-xt?1) 即:y?值最小为(5)差分法的DW值最大为1.48消除相关性最彻底,但是迭代法的?0.07395,拟合的较好。

4.14解:(1) 模型汇总 模型 R 1 .541 ab标准 估计的误R 方 .293 调整 R 方 .264 差 329.69302 Durbin-Watson .745 a. 预测变量: (常量), x2, x1。 b. 因变量: y 系数 模型 非标准化系数 B 1 (常量) x1 x2 a. 因变量: y -574.062 191.098 2.045 标准 误差 349.271 73.309 .911 标准系数 试用版 t -1.644 .345 .297 2.607 2.246 Sig. .107 .012 .029 a

?=-574.062+191.098x1+2.045x2 回归方程为:yDW=0.745

残差图为:

22

?=1-0.5*DW=0.6275 (2)? 模型汇总 模型 R 1 .688 ab标准 估计的误R 方 .474 调整 R 方 .452 差 257.67064 Durbin-Watson 1.716 a. 预测变量: (常量), x22, x12。 b. 因变量: y2 系数 模型 非标准化系数 B 1 (常量) x12 x22 a. 因变量: y2 -179.668 211.770 1.434 标准 误差 90.337 47.778 .628 标准系数 试用版 t -1.989 .522 .269 4.432 2.283 Sig. .052 .000 .027 a

?t’=-179.668+211.77x1’+1.434x2’ 此时得方程:y23

所以回归方程为:

?t??179.668?0.6275yt?1?211.77(x1t?0.6275x1t?1?)?1.434(x2t?0.6275x2t?1) y

(3) 模型汇总 模型 R 1 .715 ab标准 估计的误R 方 .511 调整 R 方 .490 差 283.79102 Durbin-Watson 2.042 a. 预测变量: (常量), x23, x13。 b. 因变量: y3 系数 模型 非标准化系数 B 1 (常量) x13 x23 a. 因变量: y3 7.698 209.891 1.399 标准 误差 39.754 44.143 .583 标准系数 试用版 t .194 .544 .274 4.755 2.400 Sig. .847 .000 .020 a

?t?7.698?209.891此时得方程:△y?x1?1.399?x2

?t?7.698?209.891所以回归方程为:y(xt?xt?1)?1.399(x2t?x2t?1)

第五章 自变量选择与逐步回归

5.9 初始数据: 年份

农业x1 1978 1979

工业x2

建筑业x3 人口x4

138.2 143.8

24

受灾面积

最终消费x5 财政收入y

x6

2239.1 2619.4

50760 39370

1132.3 1146.4

1018.4 1258.9

1607.0 1769.7

96259 97542

1980 1359.4 1996.5 195.5 98705 2976.1 1981 1545.6 2048.4 207.1 100072 3309.1 1982 1761.6 2162.3 220.7 101654 3637.9 1983 1960.8 2375.6 270.6 103008 4020.5 1984 2295.5 2789.0 316.7 104357 4694.5 1985 2541.6 3448.7 417.9 105851 5773.0 1986 2763.9 3967.0 525.7 107507 6542.0 1987 3204.3 4585.8 665.8 109300 7451.2 1988 3831.0 5777.2 810.0 111026 9360.1 1989 4228.0 6484.0 794.0 112704 10556.5 1990 5017.0 6858.0 859.4 114333 11365.2 1991 5288.6 8087.1 1015.1 115823 13145.9 1992 5800.0 10284.5 1415.0 117171 15952.1 1993 6882.1 14143.8 2284.7 118517 20182.1 1994 9457.2 19359.6 3012.6 119850 26796.0 1995 11993.0 24718.3 3819.6 121121 33635.0 1996 13844.2 29082.6 4530.5 122389 40003.9 1997 14211.2 32412.1 4810.6 123626 43579.4 1998

14599.6

33429.8

5262.0

124810

46405.9

解:后退法:输出结果

系数a 模型 非标准化系数 标准系数 B 标准 误差 试用版 t Sig. 1 (常量) 1438.120 2252.472 .638 .533 农业x1 -.626 .168 -1.098 -3.720 .002 工业x2 -.328 .207 -1.352 -1.587 .135 建筑业x3 -.383 .555 -.251 -.691 .501 人口x4 -.004 .025 -.014 -.161 .875 最终消费x5 .672 .130 3.710 5.178 .000 受灾面积x6 -.006 .008 -.015 -.695 .499 2 (常量) 1079.754 299.759 3.602 .003 农业x1 -.642 .130 -1.126 -4.925 .000 工业x2 -.303 .131 -1.249 -2.314 .035 建筑业x3 -.402 .525 -.263 -.765 .456 最终消费x5 .658 .095 3.636 6.905 .000 受灾面积x6 -.006 .007 -.017 -.849 .409 25

44530 1159.9 39790 1175.8 33130 1212.3 34710 1367.0 31890 1642.9 44370 2004.8 47140 2122.0 42090 2199.4 50870 2357.2 46990 2664.9 38470 2937.1 55470 3149.5 51330 3483.4 48830 4349.0 55040 5218.1 45821 6242.2 46989 7408.0 53429 8651.1 50145

9876.0

3 (常量) 农业x1 工业x2 最终消费x5 受灾面积x6 4 (常量) 农业x1 工业x2 最终消费x5 a. 因变量: 财政收入y 1083.150 -.624 -.373 .657 -.005 874.604 -.611 -.353 .637 295.816 .127 .093 .094 .007 106.869 .124 .088 .089 -1.095 -1.535 3.627 -.015 3.662 -4.931 -3.998 6.981 -.758 8.184 -4.936 -3.994 7.142 .002 .000 .001 .000 .460 .000 .000 .001 .000 -1.073 -1.454 3.516 Anovae 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 4 回归 残差 总计 平方和 1.365E8 528793.319 1.370E8 1.365E8 529767.852 1.370E8 1.364E8 550440.103 1.370E8 1.364E8 570180.931 1.370E8 df 6 14 20 5 15 20 4 16 20 3 17 20 均方 2.274E7 37770.951 F 602.127 Sig. .000a 2.729E7 35317.857 772.734 .000b 3.411E7 34402.506 991.468 .000c 4.547E7 33540.055 1355.753 .000d a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。 e. 因变量: 财政收入y 模型汇总 模型 标准 估计的误R 1 .998a R 方 .996 调整 R 方 .994 差 194.34750 26

R 方更改 .996 F 更改 602.127 df1 6 df2 14 更改统计量 Sig. F 更改 .000 2 3 4 .998b .998c .998d .996 .996 .996 .995 .995 .995 187.93046 185.47913 183.13944 .000 .000 .000 .026 .585 .574 1 1 1 14 15 16 .875 .456 .460 a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。 ?回归方程为:y?874.604?0.611x1?0.353x2?0.637x5

逐步回归法:输出结果

模型汇总 模型 标准 估计的误R 1 2 3 .994a .996b .998c R 方 .989 .992 .996 调整 R 方 .988 .991 .995 差 285.68373 247.77768 183.13944 R 方更改 .989 .003 .004 F 更改 1659.441 7.258 15.948 df1 1 1 1 df2 19 18 17 更改统计量 Sig. F 更改 .000 .015 .001 a. 预测变量: (常量), 最终消费x5。 b. 预测变量: (常量), 最终消费x5, 农业x1。 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。 Anovad 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 平方和 1.354E8 1550688.654 1.370E8 1.359E8 1105088.003 1.370E8 1.364E8 570180.931 1.370E8 df 1 19 20 2 18 20 3 17 20 均方 1.354E8 81615.192 F 1659.441 Sig. .000a 1106.637 .000b 6.794E7 61393.778 4.547E7 33540.055 1355.753 .000c a. 预测变量: (常量), 最终消费x5。 27

b. 预测变量: (常量), 最终消费x5, 农业x1。 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。 d. 因变量: 财政收入y

系数a 模型 非标准化系数 B 1 (常量) 最终消费x5 2 (常量) 最终消费x5 农x1 3 (常量) 最终消费x5 农x1 工x2 a. 因变量: 财政收入y 业-.353 .088 -1.454 -3.994 .001 .992 -.696 -.062 业-.611 .124 -1.073 -4.936 .000 .987 -.767 -.077 874.604 .637 106.869 .089 业-.414 .154 -.726 -2.694 .015 .987 -.536 -.057 1011.912 .311 136.901 .049 710.372 .180 标准 误差 90.891 .004 标准系数 试用版 t 7.816 .994 40.736 Sig. .000 .000 零阶 相关性 偏 部分 .994 .994 .994 1.718 7.392 6.374 .000 .000 .994 .832 .135 3.516 8.184 7.142 .000 .000 .994 .866 .112 回归方程为:y?874.604?0.636x1?0.353x2?0.637x5

5.10 (1) 模型汇总 模型 R 1 2 .908a .000b R 方 .824 .000 调整 R 方 .736 .000 标准 估计的误差 625.88326 1217.15945 ?a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量) 28

Anovac 模型 1 回归 残差 总计 2 回归 残差 总计 平方和 1.830E7 3917298.522 2.222E7 .000 2.222E7 2.222E7 df 5 10 15 0 15 15 均方 3660971.683 391729.852 F 9.346 Sig. .002a .000 1481477.129 . .b a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量) c. 因变量: y 系数a 模型 非标准化系数 B 1 (常量) x2 x3 x4 x5 x6 2 (常量) 5922.827 4.864 2.374 -817.901 14.539 -846.867 7542.938 标准 误差 2504.315 2.507 .842 187.279 147.078 291.634 304.290 标准系数 试用版 t 2.365 .677 .782 -1.156 .050 -.899 1.940 2.818 -4.367 .099 -2.904 24.789 Sig. .040 .081 .018 .001 .923 .016 .000 a. 因变量: y 回归方程为:y?5922.827?4.864x2?2.374x3?817.901x4?14.539x5?846.867x6 (2)后退法:输出结果 模型汇总 模型 R 1 2 .908a .907b R 方 .824 .824 调整 R 方 .736 .759 标准 估计的误差 625.88326 597.04776 ?a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量), x6, x3, x2, x4。 29

Anovac 模型 1 回归 残差 总计 2 回归 残差 总计 平方和 1.830E7 3917298.522 2.222E7 1.830E7 3921126.262 2.222E7 df 5 10 15 4 11 15 均方 3660971.683 391729.852 F 9.346 Sig. .002a 4575257.669 356466.024 12.835 .000b a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量), x6, x3, x2, x4。 c. 因变量: y 系数a 模型 非标准化系数 B 1 (常量) x2 x3 x4 x5 x6 2 (常量) x2 x3 x4 x6 a. 因变量: y 5922.827 4.864 2.374 -817.901 14.539 -846.867 6007.320 5.068 2.308 -824.261 -862.699 标准 误差 2504.315 2.507 .842 187.279 147.078 291.634 2245.481 1.360 .486 167.776 232.489 标准系数 试用版 t 2.365 .677 .782 -1.156 .050 -.899 1.940 2.818 -4.367 .099 -2.904 2.675 .706 .760 -1.165 -.916 3.727 4.750 -4.913 -3.711 Sig. .040 .081 .018 .001 .923 .016 .022 .003 .001 .000 .003 y?6007.320?5.068x2?2.308x3?824.261x4?862.699x6

?

(3)逐步回归

模型汇总

30

模型 R 1 2 3 .498a .697b .811c R 方 .248 .485 .657 调整 R 方 .194 .406 .572 标准 估计的误差 1092.83206 937.95038 796.60909 a. 预测变量: (常量), x3。 b. 预测变量: (常量), x3, x5。 c. 预测变量: (常量), x3, x5, x4。 Anovad 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 a. 预测变量: (常量), x3。 b. 预测变量: (常量), x3, x5。 c. 预测变量: (常量), x3, x5, x4。 d. 因变量: y 平方和 5502210.090 1.672E7 2.222E7 1.079E7 1.144E7 2.222E7 1.461E7 7615032.418 2.222E7 df 1 14 15 2 13 15 3 12 15 均方 5502210.090 1194281.918 F 4.607 Sig. .050a 5392697.554 879750.910 6.130 .013b 4869041.506 634586.035 7.673 .004c 系数a 模型 非标准化系数 B 1 (常量) x3 2 (常量) x3 x5 3 (常量) x3

5161.259 1.511 472.298 3.188 212.325 1412.807 3.440 标准 误差 1142.744 .704 2150.138 .913 86.643 1865.912 .782 标准系数 试用版 t 4.517 .498 2.146 .220 3.492 2.451 .757 4.398 Sig. .000 .050 .830 .004 .029 .464 .001 1.050 .737 1.133 31

x5 x4 a. 因变量: y 348.729 -415.136 92.220 169.163 1.210 -.587 3.782 -2.454 .003 .030 y?1412.807?3.440x3?348.729x5?415.136x4

?(4)两种方法得到的模型是不同的,回退法剔除了x5,保留了x6, x3, x2, x4作为最终模型。而逐步回归法只引入了x3。说明了方法对自变量重要性的认可不同的,这与自变量的相关性有关联。相比之下,后退法首先做全模型的回归,每一个变量都有机会展示自己的作用,所得结果更有说服力

第六章 多重共线性的情形及其处理

6.6对财政收入的数据,分析数据的多重共线性,并根据多重共线性剔除变量。将所得结果与用逐步回归法所得的选元结果相比较。

答:

首先,采用方差扩大因子法,使用SPSS软件诊断财政收入的多重共线性问题,得到的计算结果如下。 Coefficients aUnstandardized Coefficients Std. Model 1 (Constant) x1 B Error Standardized Coefficients Collinearity Statistics TolerancBeta t Sig. e VIF 1348.338 2211.463 .610 .552 -.641 .167 -1.125 -3.840 .002 .003 319.484 2636.56.000 4 .002 479.288 x2 -.317 .204 -1.306 -1.551 .143 x3 -.413 .548 -.270 -.752 32

.464

x4 x5 -.002 .671 -.008 .024 .128 .008 -.007 -.087 3.706 5.241 -.020 -.928 .932 .000 .369 .037 27.177 1860.72.001 6 .574 1.743 x6 a. Dependent Variable: y 从输出结果看到,x2,x5的方差扩大因子很大,分别为VIF2?2636,VIF7?1860, 远远超过10。说明财政收入的数据存在严重的多重共线性。

其次采用特征根判定法,使用SPSS软件诊断财政收入的多重共线性问题,得到的计算结果如下。 Collinearity Diagnostics Variance Proportions DimensEigenvaCondition (ConsModel ion 1 1 2 3 4 5 6 7 lue 6.127 .857 .011 .004 .001 Index tant) x1 x2 x3 x4 x5 x6 a1.000 .00 .00 .00 .00 .00 2.673 .00 .00 .00 .00 .00 23.954 .01 .00 .00 .00 .00 38.000 .01 .16 .00 .07 .00 98.485 .02 .11 .08 .78 .02 .00 .00 .00 .00 .00 .81 .00 .00 .07 .03 .20 .09 .72 .07 .000 119.124 .11 .55 .04 .01 .13 7.352E-5 288.677 .85 .18 .88 .14 .85 a. Dependent Variable: y

从条件数看到,最大的条件数k7?288.677,说明自变量之间存在严重的多重共线性问题。这与方差扩大因子法的结果一致。

先剔除方差扩大因子最大的x2,重新做回归,结果如下,发现自变量之间仍然存在严

重的多重共线性问题。

33

Coefficients Standardized Unstandardized CoefficientCoefficients Std. Model 1 B (Constant-1252.83) x1 x3 x4 x5 x6 Error 1.508E3 2 .163 .459 .017 .078 .008 Beta t Sig. s Collinearity Statistics Tolerance VIF -.831 .419 -1.291 -4.524 .000 -.604 -2.012 .063 .093 1.591 .132 2.815 6.527 .000 -.028 -1.274 .222 a-.735 -.923 .026 .510 -.011 .004 276.969 .003 306.617 .086 11.605 .002 632.896 .608 1.645 a. Dependent Variable: y

再剔除方差扩大因子最大的x5,重新做回归,结果如下,发现自变量之间仍然存在严

重的多重共线性问题。

Coefficients Unstandardized Coefficients Model 1 B Std. Error 2829.351 .235 .526 .031 .015 Standardized Coefficients Beta t Collinearity Statistics Sig. Tolerance .006 160.513 .009 111.949 .087 .649 11.507 1.540 VIF a(Constant) -2715.046 x1 x3 x4 x6 -.047 1.463 .036 .003 -.960 .352 -.083 -.202 .843 .957 2.781 .013 .128 1.160 .263 .008 .206 .839 a. Dependent Variable: y

34

再剔除方差扩大因子最大的x1,重新做回归,结果如下,发现此时多重共线性问题应

经消除。但是继续观察如下结果,自变量x6的P值为0.801,说明x6对于财政收入的回归方程作用是不显著的。

Coefficients Unstandardized Standardized Coefficients Std. Model 1 (Constant) x3 x4 x6 B Error Beta t Sig. -2296.322 1.870E3 1.359 .031 .004 .097 .019 .014 Coefficients Collinearity Statistics Tolerance VIF -1.228 .236 .889 14.036 .000 .111 .010 1.649 .117 .256 .801 a.249 4.018 .222 4.509 .673 1.485 a. Dependent Variable: y

剔除不显著的x6,仅保留x3和x4两个自变量,进行回归分析。

Coefficients Unstandardized Coefficients Standardized Coefficients Collinearity Statistics ToleraModel 1 (Constant) x3 x4 B Std. Error Beta t Sig. nce VIF -2306.802 1820.091 1.359 .033 .094 .018 -1.267 .221 a.889 14.415 .000 .249 4.018 .116 1.886 .076 .249 4.018 a. Dependent Variable: y

???2306.8?1.359x3?0.033x4,但是发现x4的P值为0.076>0.05,表回归方程为y35

示x4对于y只有较弱的显著性。

用逐步回归法所得的选元结果如下,从中可以看出逐步回归法所保留的变量为

x5,x1,x2,而这三个变量正是方差扩大因子法所剔除的,所以按照共线性提出变量与常规的

逐步回归法按照t值显著性提出变量会有较大差别。 Coefficients Unstandardized Coefficients Std. Model 1 (Constant) x5 2 (Constant) x5 x1 3 (Constant) x5 x1 x2

36

aStandardized Coefficients Collinearity Statistics B 710.370 .180 Error 90.891 .004 Beta t 7.816 Sig. Tolerance .000 .000 .000 .000 .015 .000 .000 .000 .001 1.000 VIF .994 40.736 7.392 1.000 1011.913 136.899 .311 -.414 .049 .154 1.718 -.726 6.374 -2.694 8.184 .006 162.146 .006 162.146 .001 989.833 .005 192.871 .002 541.459 874.600 106.866 .637 -.611 -.353 .089 .124 .088 3.516 -1.073 -1.454 7.143 -4.936 -3.994 a. Dependent Variable: y

7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为了弄清不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的方法。下表是该银行所属25家分行2002年的有关业务数据。

初始数据:

x1 x2 x3 x4 分行编号 y

1 0.9 67.3 6.8 5 51.9 2 1.1 111.3 19.8 16 90.9 3 4.8 173 7.7 17 73.7 4 3.2 80.8 7.2 10 14.5 5 7.8 199.7 16.5 19 63.2 6 2.7 16.2 2.2 1 2.2 7 1.6 107.4 10.7 17 20.2 8 12.5 185.4 27.1 18 43.8 9 1 96.1 1.7 10 55.9 10 2.6 72.8 9.1 14 64.3 11 0.3 64.2 2.1 11 42.7 12 4 132.2 11.2 23 76.7 13 0.8 58.6 6 14 22.8 14 3.5 174.6 12.7 26 117.1 15 10.2 263.5 15.6 34 146.7 16 3 79.3 8.9 15 29.9 17 0.2 14.8 0.6 2 42.1 18 0.4 73.5 5.9 11 25.3 19 1 24.7 5 4 13.4 20 6.8 139.4 7.2 28 64.3

37

21 22 23 24 25

11.6 1.6 1.2 7.2 3.2

368.2 95.7 109.6 196.2 102.2

16.8 3.8 10.3 15.8 12

32 10 14 16 10

163.9 44.5 67.9 39.7 97.1

(1) 建立y与其余四个变量的简单相关系数

Correlations Pearson Correlation y x1 x2 x3 x4 Sig. (1-tailed) y x1 x2 x3 x4 N y x1 x2 x3 x4

从相关阵看出,y与x1,x2,x3的相关系数都在0.7以上,说明所选的自变量与y具有一定的相关性,但并不高度显著。

(2) 建立不良贷款y与4个变量的线性回归方程,所得回归系数是否合理?

38

y 1.000 .844 .732 .700 .519 . .000 .000 .000 .004 25 25 25 25 25 x1 .844 1.000 .679 .848 .780 .000 . .000 .000 .000 25 25 25 25 25 x2 .732 .679 1.000 .586 .472 .000 .000 . .001 .009 25 25 25 25 25 x3 .700 .848 .586 1.000 .747 .000 .000 .001 . .000 25 25 25 25 25 x4 .519 .780 .472 .747 1.000 .004 .000 .009 .000 . 25 25 25 25 25

Model Summary Adjusted R Std. Error of Model 1 R .893 abR Square .798 Square .757 the Estimate Durbin-Watson 1.7788 2.626 a. Predictors: (Constant), x4, x2, x3, x1 b. Dependent Variable: y

ANOVA Model 1 Regression Residual Total Sum of Squares 249.371 63.279 312.650 df 4 20 24 b Mean Square 62.343 3.164 aF 19.704 Sig. .000 aa. Predictors: (Constant), x4, x2, x3, x1 b. Dependent Variable: y Coefficients Unstandardized Standardized Coefficients Std. Model 1 (Constant) x1 x2 x3 x4 B -1.022 .040 .148 .015 -.029 Error .782 .010 .079 .083 .015 .891 .260 .034 Beta t -1.306 3.837 1.879 .175 Coefficients 95% Confidence Interval for B Lower Sig. Bound Upper Bound .610 .062 .312 .188 .002 .206 -2.654 .001 .018 .075 -.016 .863 -.159 .067 -.061 -.325 -1.937 a. Dependent Variable: y 回归方程为

39

本文来源:https://www.bwwdw.com/article/o3tg.html

Top