线性回归分析和方差分析报告

更新时间:2023-12-20 08:53:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

线性回归分析和方差分析报告

信计12 徐文豪 2110902039

本报告以教材第二章课后习题2.4和第三章课后习题3.6为主体,给出对应的解答、sas代码和结果分析。

2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:箱)与该城市中适合使用该化妆品的人数X1(单位:前人)以及他们人均月收入X2(单位:元)之间的关系,在某个月中对15个城市做了调查,得上述各量的观测值如下表所示:

162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605

假设Y与X1,X2之间满足线性回归关系

yi??0??1xi1??2xi2??i,i?1,2,,15 其中?i(i?1,2,15)独立通分布于N(0,?2)。

(1)求回归系数?0,?1,?2的最小二乘估计和误差方差?2的估计,写出回归方程并对回归系数作解释。

解:首先将数据导入sas,sas语句如下:

data sale;

input y x1 x2; cards;

162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 ; run;

然后调用reg过程,sas语句如下:

proc reg data=sale; model y=x1 x2; run;

运行结果如下:

由此得到?0,?1,?2的最小二乘估计分别为3.45261,0.496,0.0092,?2?4.7403,回归方程为

y?3.45261?0.496x1?0.0092x2

?1显示当人均月收入固定时,使用化妆品的人数上升一人,月销售量增加0.496个单位;?2显示当使用化妆品的人数固定时,人均月收入增加一元,月销售量增加0.0092个单位。

(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方R2的值并解释其意义。

解:由(1)的结果,方差分析表如下:

由结果可知,线性回归关系显著性检验的p值小于0.001,则有线性回归关系显著。

该sas语句同时也得到了复相关系数R2的值为0.9989,由于R2越大,线性函数值占Y的比率越大,即Y与X1,X2,,Xp?1的线性关系越显著,因而结果显示月销售量与使用化妆品的人数及人均月收入有明显的线性关系。

(3)分别求出?1和?2置信度为95%的置信区间。 解:由公式?k?t^1??2(n?p)s(?k),n?15,p?3,要求出?1和?2的置信区间,首先

^应该求出t0.975(12),使用tinv函数,sas语句如下:

data get_p; y=tinv(0.975,12); run;

proc print data=get_p; run;

得到t0.975(12)?2.179。

又由(1)的结果得到参数估计表如下:

综合得到:

对?1:0.496?2.179?0.00605,即置信区间为(0.4796,0.5124)。

对?2:0.0092?2.719?0.000968,即置信区间为(0.006568,0.01183)。

(4)对??0.05,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设检验方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著。 解:由(3)得到的参数估计表得到假设?1?0和?2?0检验的p值均小于0.0001,因而X1和X2对Y的影响显著。

为检验X1和X2的交叉项对Y的影响,先构造全模型:

Y??0??1X1??2X2??3X1X2 利用观测数据拟合该模型得到

SSE(F)?56.72083,fF?11

又由(2)得到的方差分析表得到

SSE(R)?56.88357,fR?12

由此得到检验统计量的观测值为

(56.88357?56.72083)/(12?11)F0??0.0344

56.72083/12检验p值为

p0?PH0(F?F0)?P(F(1,12)?0.0344)?0.85596

p0远大于一般显著性水平,因此认为X1,X2的交叉项对Y的影响是不显著的,即模型中没有必要引入交叉项。

(5)该公司欲在一个适宜使用该化妆品的人数x01?220,人均月收入x02?2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间。 解:点估计可直接根据回归方程y?3.45261?0.496x1?0.0092x2给出,得到估计值y0?135.5726。

而置信度为0.95的置信区间为

Ty0?t0.975(12)MSE([1?x0(XTX)?1x0]) ^^其中y0?135.2726,t0.975(12)?2.719,MSE?2.17722,X为设计矩阵,解得

置信区间为(128.7703,141.7749)。

(6)求Y的拟合值,残差及学生化残差。根据学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?做出各种残差图,分析模型有关假定的合理性。

解:根据回归方程,可直接得到Y的拟合值,结果如下:

在reg过程中由sas语句model y=x1 x2/r得到残差和学生化残差,结果如下:

10?0.667(?0.68)在区间(-1,1)内,有151315?0.867(?0.87)在区间(-1.5,1.5)内,有?1(?0.95)在区间(-2,2)内,由1515此可见学生化残差落在上述各区间的频率与N(0,1)分布的相应概率相差均不大,因此对所给数据没有理由拒绝模型误差服从正态分布的假定。

为进行正态QQ图检验,调用capability过程,得到结果如下:

做频率检验得到,学生化残差中有

21Studentized Residual0-1-2-2.0-1.5-1.0-0.500.51.01.52.0正态分位数 从上图可以看出,点(q(i),r(i))大致在一条直线上,又调用corr过程得到相关系数为0.99363,非常接近1,由此我们认为模型中误差项正态分布的假定是非

常合理的。

以因变量Y为横坐标的残差图如下图所示:

以自变量x1为横坐标的残差图如下图所示:

以自变量x2为横坐标的残差图如下图所示:

时序残差图如下图所示:

本文来源:https://www.bwwdw.com/article/qhw5.html

Top