回归分析课程设计

更新时间:2023-10-31 13:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

应用回归分析

课程设计指导书

一、 课程设计的目的

(1)巩固应用回归分析的理论知识,掌握其思想精髓;

(2)运用回归分析研究方法,加强解决实际问题的能力; (3)熟练使用spss软件对数据进行回归分析。

二、

设计名称:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总

产值x2(亿元)、居民非商品支出x3(亿元)的关系

三、 设计要求

(1)正确运用spss软件对数据进行处理

(2)正确分析数据,尝试选择不同的模型拟合数据

(3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对于模型的显著性和回归系数都要进行检验 (5)认真并独立完成

四、 设计过程

(1)思考课程设计的目的,寻找来源真实的数据 (2)上网搜集并整理数据资料 (3)根据数据确定研究对象

(4)应用统计软件来处理数据信息 (5)选择通过各种检验的线性模型

(6)写出相应的实验报告,并对结果进行分析

五、设计细则

(1)搜集数据阶段,数据不能过于繁杂,也不能太少;

(2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论; (3)有耐心,不紧不慢;要细心,一丝不苟;

(4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要清楚明了。分析结果要正确与实际问题背景相符。

六、说明

(1)书写报告时,有些特殊的数学符号需要利用Mathtype(公式编辑器)这款小软件进行编辑;

(2)有些spss输出表格不整齐,需要导出在Excel中,然后在复制到word文档里;

(3)认真仔细的完成课程设计

课程设计任务书

姓 名 课程名称 XXX 学 号 00000000 课程性质 班 级 09统计 应用回归分析 统计学 设计时间 设计名称 设计要求 2011年11月 1 日—— 2011 年 11 月 15 日 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系 (1)正确运用spss软件对数据进行处理 (2)正确分析数据,尝试选择不同的模型拟合数 (3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对模型的显著性和回归系数要进行检验 (5)认真并独立完成 思路: (1)建立一个回归方程后,要检验方程显著性和回归系数的显著性 (2)将理论应用到实际问题中去 过程: (1)思考课程设计的目的,寻找来源真实的数据 (2)上网搜集并整理数据资料 (3)根据数据确定研究对象 (4)应用统计软件来处理数据信息 (5)选择通过各种检验的线性模型 (6)写出相应的实验报告,并对结果进行分析 (1)11月1日-11月3日,思考准备研究课题。 (2)11月4日-11月7日,确立课题,搜集数据。 (3)11月8日-11月13日,分析处理数据,编写课程设计报告书。 (4)11月13日-11月15日,检查报告是否完整正确并装订成册 设计思路 与 设计过程 计划与进度 任课教师 意 见 说 明 (1)对Word文档进行编辑的时候,有些特殊的数学符号需要利用Mathtype (公式编辑器)这款小软件进行编辑。 (2)有些spss输出表格不整齐,需要要到处在Excel中,然后在复制到word文档里

设计名称: 日期:

研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值

x2(亿元)、居民非商品支出x3(亿元)的关系

2011年 11 月 13 日

(1) 设计内容:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值

x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表如下: 编号 1 2 3 4 5 6 7 8 9 10 货运总量y(万吨) 160.00 260.00 210.00 265.00 240.00 220.00 275.00 160.00 275.00 250.00 工业总产值x1(亿元) 70.00 75.00 65.00 74.00 72.00 68.00 78.00 66.00 70.00 65.00 农业总产值x2(亿元) 35.00 40.00 40.00 42.00 38.00 45.00 42.00 36.00 44.00 42.00 居民非商品支出x3(亿元) 1.00 2.40 2.00 3.00 1.20 1.50 4.00 2.00 3.20 3.00 (1) 计算出y,x1,x2,x3的相关系数矩阵; (2) 求y关于x1,x2,x3的三元线性回归方程; (3) 对所求的得方程做拟合优度检验; (4) 对回归方程做显著性检验;

(5) 对每一个回归系数做显著性检验;

(6) 如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,

再作回归方程的显著性检验和回归系数的显著性检验; (7) 求出每一个回归系数的置信水平为95%的置信区间; (8) 求标准化方程;

设计目的与要求:

目的:(1)巩固课本上学到的知识,提高处理实际问题的能力; (2)掌握对多元线性回归问题的模型选择; (3)对软件输出的结果要学会分析 要求:(1)熟练使用spss软件对回归数据进行模型拟合; (2)认真独立完成

设计环境或器材、原理与说明:

设计环境和器材:计算机,Minitab软件,课本,笔记 设计原理与说明: (1) { HYPERLINK

\??????????&ch=w.search.yjjlink&cid=w.search

.yjjlink\|多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验 (2) t检验:

原假设: 统计量:

其中为回归标准差

当原假设:成立时,构造的统计量服从自由度为n-p-1的t分布。给定显著性水平,查出双侧检验的临界值。当时拒绝原假设:,认为显著不为零。自变量是对y的线性效果是显著的;当时接受原假设:,认为显著为零。自变量是对y的线性效果不显著的

(3)F检验

对线性回归方程显著性的另一种检验是F检验,F检验是根据平方和分解式,直接从回归效果检验方程的显著性。平方和分解式是

其中,称为总平方和,简记为sst或,SST表示Sum of Squares for Total。 称为回归平方和,简记为SSR或,R表示Regression 称为残差平方和,简记为SSE或,E表示Error 因此平方和分解式可以简记为SST=SSR+SSE 原假设: 统计量:

当原假设成立时,构造的统计量服从自由度为(p,n-p-1)的F分布。给定显著性水平。当大于临界值时,拒绝原假设,认为回归方程显著。 方差分析表 方差来源 自由度 平方和 均方 F值 P值 回归 残差 总和 SST (4)拟合优度

拟合优度用于检验回归方程对样本观测值的拟合优度。在多元线性回归中,决定系数为

样本决定系数的取值在区间内,越近1,表明回归拟合的效果越好;越接近0,表明回归拟合的效果越差。与F检验相比,可以清楚直观的反应回归拟合的效果,但是并不能作为严格的显著性检验。 (5)复相关系数

为y关于的样本复相关系数。。在两个变量的简单相关系数中,相关系数没有正负之分,而复相关系数表示的是因变量y对全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而复相关系数都取正号。

(6)多重共线性

多元线性回归方程模型中有一个基本假设,就是要求设计矩阵X的秩rank(X)=p+1,即要求X中的列向量之间线性无关,如果存在不全为0的P+1个数,使得

则自变量之间存在着多重共线性。 多重共线性的诊断:(方差扩大因子法)

对自变量做中心标准化,则为自变量的相关阵。记称其主对角线元素为自变量的方差扩大因子(variance inflation factor,VIF)。 当就说明自变量与其他自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘估计值。

设计过程(步骤)或程序代码:

(1)打开SPSS软件,导出数据

(2)分析—相关—双变量相关—变量:y,x1,x2,x3—确定

(3)分析—回归—线性回归(因变量:y;自变量:x1,x2,x3)—确定 (4)分析—相关—双变量相关—变量:y,x1,x2—确定

(5)分析—回归—线性回归(因变量:y;自变量:x1,x2)—确定

(6)分析---回归---线性回归(因变量:y;自变量:x1,x2,x3;统计量:选中共线性诊断;继续)----确定

(7)分析---回归---线性回归(因变量:y;自变量:x1,x2,x3;保存:预测值:未标准化;残差:未标准化;预测区间:均值,置信水平为95%;继续)----确定

设计结果与分析(可以加页):

(2) 相关性 y Pearson 相关性 显著性(双侧) N y 1 x1 .556 .095 10 10 1 x2 .731 .016 10 .113 .756 10 10 1 *x3 .724 .018 10 .398 .254 10 .547 .101 10 10 1 * x1 Pearson 相关性 显著性(双侧) N .556 .095 10 .731 .016 10 .724 .018 10 ** x2 Pearson 相关性 显著性(双侧) N .113 .756 10 .398 .254 10 x3 Pearson 相关性 显著性(双侧) N .547 .101 10 10 *. 在 0.05 水平(双侧)上显著相关。

(3) 输入/移去的变量 模型 1 输入的变量 x3, x1, x2 a移去的变量 方法 . 输入 a. 已输入所有请求的变量。 模型汇总 模型 1 R .898 aR 方 .806 调整 R 方 标准 估计的误差 .708 23.44188 a. 预测变量: (常量), x3, x1, x2。 复相关系数R=0.898,决定系数=0.806,由决定系数看回归方程高度显著。 Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 549.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y 由方差分析表可以知道,F=8.283,P值=0.015,表明回归方程高度显 著,说明x1,x2,x3整体上对y有显著的线性影响。 系数 非标准化系数 模型 1 (常量) x1 B -348.280 3.754 标准 误差 176.459 1.933 标准系数 试用版 t -1.974 .385 1.942 Sig. .096 .100 a

x2 x3 a. 因变量: y 7.101 12.447 2.880 10.569 .535 .277 2.465 1.178 .049 .284

1.回归方程为 :

2.回归系数的显著性检验:自变量x2对y有影响,其中x3的P值=0.284。

因此,这个模型通过了显著性检验但没有通过回归系数的检验,自变量x3对因变量y不显著,所以下一步要剔除不显著的回归系数x3,重新建立回归模型.

(4) 相关性 y Pearson 相关性 显著性(双侧) N y 1 x1 .556 .095 10 10 1 x2 .731 .016 10 .113 .756 10 10 1 * x1 Pearson 相关性 显著性(双侧) N .556 .095 10 .731 .016 10 * x2 Pearson 相关性 显著性(双侧) N .113 .756 10 10 *. 在 0.05 水平(双侧)上显著相关。

(5) 输入/移去的变量 模型 1 输入的变量 x2, x1 a移去的变量 方法 . 输入 a. 已输入所有请求的变量。 模型汇总 模型 1 R .872 aR 方 .761 调整 R 方 标准 估计的误差 .692 24.08112 a. 预测变量: (常量), x2, x1。

Anova 模型 1 回归 残差 总计 平方和 12893.199 4059.301 16952.500 df 2 7 9 均方 6446.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y 系数 非标准化系数 模型 1 (常量) x1 x2 a. 因变量: y B -459.624 4.676 8.971 标准 误差 153.058 1.816 2.468 标准系数 试用版 t -3.003 .479 .676 2.575 3.634 Sig. .020 .037 .008 a

实验分析:

1.复相关系数R=0.872,决定系数=0.761,由决定系数看回归方程高度显著。 2. 由方差分析表可以知道,F=11.117,P值=0.007,表明回归方程高度显 著,说明x1,x2整体上对y有显著的线性影响。

3.回归系数的显著性检验,自变量x1,x2对y有影响,其中x1的P值=0.037最大。

4。标准化回归方程为 :

综上所诉,这个回归模型即通过了方程显著性检验,也通过了回归系数显著行检验,所以次模型是有效的

(6) 系数 非标准化系数 模型 1 (常量) x1

B -348.280 3.754 标准 误差 176.459 1.933 标准系数 试用版 t -1.974 .385 1.942 Sig. .096 .100 共线性统计量 容差 VIF a .825 1.211

x2 x3 a. 因变量: y 7.101 12.447 2.880 10.569 .535 .277 2.465 1.178 .049 .284 .687 .586 1.455 1.708

从上图可知,次模型中,自变量自变量x1,x2,x3的多重共线性的VIF统计量的值都很小,小于10,说明建立的回归模型不存在多重共线性问题。

(7) 残差统计量 a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: y 极小值 175.4748 -1.438 10.466 188.3515 -25.19759 -1.075 -2.116 -97.61523 -3.832 .894 .000 .099 极大值 292.5545 1.567 20.191 318.1067 33.22549 1.417 1.754 50.88274 2.294 5.777 3.216 .642 均值 231.5000 .000 14.526 240.1835 .00000 .000 -.123 -8.68348 -.255 2.700 .486 .300 标准 偏差 38.95206 1.000 3.127 49.83914 19.14022 .816 1.188 43.43220 1.658 1.555 .976 .173 N 10 10 10 10 10 10 10 10 10 10 10 10 由上表可知,标准化和学生化的残差绝对值都下于3,证明此模型中不存在异常值

上表是列出了模型的残差,预测值和预测的置信区间

设计体会与建议:

通过课程设计,使我深深体会到,干任何事都必须耐心,细致.课程设计

过程中,许多计算有时不免令我感到有些心烦意乱:有几次因为不完全理解,只能重来.说实话,课程设计真的有点累.然而,当我一着手清理自己的设计成果,漫漫回味这两周的心路历程,一种少有的成功喜悦即刻使倦意顿消。

短短两周的课程设计,使我发现了自己所掌握的知识是真正如此的缺乏,自己综合应用所学的专业知识能力是如此的不足,几年来的学习了那么多的课程,今天才知道自己并不会用.经过这次的回归分析的课程设计,我个人也得到了不少的收获,一方面加深了我对课本理论的知识,另一方面也提高了实验操作能力。做实验,必须要弄懂实验的原理,在这里,我深深的体会到哲学上理论对时间的指导作用,而且体会到了实验的操作能力靠自己亲自动手,亲自动脑,亲自去请教别人才能提高的。

设计成绩:

教师签名:

年 月 日

本文来源:https://www.bwwdw.com/article/hid2.html

Top