回归分析课程设计
更新时间:2023-10-31 13:55:01 阅读量: 综合文库 文档下载
应用回归分析
课程设计指导书
一、 课程设计的目的
(1)巩固应用回归分析的理论知识,掌握其思想精髓;
(2)运用回归分析研究方法,加强解决实际问题的能力; (3)熟练使用spss软件对数据进行回归分析。
二、
设计名称:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总
产值x2(亿元)、居民非商品支出x3(亿元)的关系
三、 设计要求
(1)正确运用spss软件对数据进行处理
(2)正确分析数据,尝试选择不同的模型拟合数据
(3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对于模型的显著性和回归系数都要进行检验 (5)认真并独立完成
四、 设计过程
(1)思考课程设计的目的,寻找来源真实的数据 (2)上网搜集并整理数据资料 (3)根据数据确定研究对象
(4)应用统计软件来处理数据信息 (5)选择通过各种检验的线性模型
(6)写出相应的实验报告,并对结果进行分析
五、设计细则
(1)搜集数据阶段,数据不能过于繁杂,也不能太少;
(2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论; (3)有耐心,不紧不慢;要细心,一丝不苟;
(4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要清楚明了。分析结果要正确与实际问题背景相符。
六、说明
(1)书写报告时,有些特殊的数学符号需要利用Mathtype(公式编辑器)这款小软件进行编辑;
(2)有些spss输出表格不整齐,需要导出在Excel中,然后在复制到word文档里;
(3)认真仔细的完成课程设计
课程设计任务书
姓 名 课程名称 XXX 学 号 00000000 课程性质 班 级 09统计 应用回归分析 统计学 设计时间 设计名称 设计要求 2011年11月 1 日—— 2011 年 11 月 15 日 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系 (1)正确运用spss软件对数据进行处理 (2)正确分析数据,尝试选择不同的模型拟合数 (3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对模型的显著性和回归系数要进行检验 (5)认真并独立完成 思路: (1)建立一个回归方程后,要检验方程显著性和回归系数的显著性 (2)将理论应用到实际问题中去 过程: (1)思考课程设计的目的,寻找来源真实的数据 (2)上网搜集并整理数据资料 (3)根据数据确定研究对象 (4)应用统计软件来处理数据信息 (5)选择通过各种检验的线性模型 (6)写出相应的实验报告,并对结果进行分析 (1)11月1日-11月3日,思考准备研究课题。 (2)11月4日-11月7日,确立课题,搜集数据。 (3)11月8日-11月13日,分析处理数据,编写课程设计报告书。 (4)11月13日-11月15日,检查报告是否完整正确并装订成册 设计思路 与 设计过程 计划与进度 任课教师 意 见 说 明 (1)对Word文档进行编辑的时候,有些特殊的数学符号需要利用Mathtype (公式编辑器)这款小软件进行编辑。 (2)有些spss输出表格不整齐,需要要到处在Excel中,然后在复制到word文档里
设计名称: 日期:
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值
x2(亿元)、居民非商品支出x3(亿元)的关系
2011年 11 月 13 日
(1) 设计内容:研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值
x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表如下: 编号 1 2 3 4 5 6 7 8 9 10 货运总量y(万吨) 160.00 260.00 210.00 265.00 240.00 220.00 275.00 160.00 275.00 250.00 工业总产值x1(亿元) 70.00 75.00 65.00 74.00 72.00 68.00 78.00 66.00 70.00 65.00 农业总产值x2(亿元) 35.00 40.00 40.00 42.00 38.00 45.00 42.00 36.00 44.00 42.00 居民非商品支出x3(亿元) 1.00 2.40 2.00 3.00 1.20 1.50 4.00 2.00 3.20 3.00 (1) 计算出y,x1,x2,x3的相关系数矩阵; (2) 求y关于x1,x2,x3的三元线性回归方程; (3) 对所求的得方程做拟合优度检验; (4) 对回归方程做显著性检验;
(5) 对每一个回归系数做显著性检验;
(6) 如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,
再作回归方程的显著性检验和回归系数的显著性检验; (7) 求出每一个回归系数的置信水平为95%的置信区间; (8) 求标准化方程;
设计目的与要求:
目的:(1)巩固课本上学到的知识,提高处理实际问题的能力; (2)掌握对多元线性回归问题的模型选择; (3)对软件输出的结果要学会分析 要求:(1)熟练使用spss软件对回归数据进行模型拟合; (2)认真独立完成
设计环境或器材、原理与说明:
设计环境和器材:计算机,Minitab软件,课本,笔记 设计原理与说明: (1) { HYPERLINK
\??????????&ch=w.search.yjjlink&cid=w.search
.yjjlink\|多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验 (2) t检验:
原假设: 统计量:
其中为回归标准差
当原假设:成立时,构造的统计量服从自由度为n-p-1的t分布。给定显著性水平,查出双侧检验的临界值。当时拒绝原假设:,认为显著不为零。自变量是对y的线性效果是显著的;当时接受原假设:,认为显著为零。自变量是对y的线性效果不显著的
(3)F检验
对线性回归方程显著性的另一种检验是F检验,F检验是根据平方和分解式,直接从回归效果检验方程的显著性。平方和分解式是
其中,称为总平方和,简记为sst或,SST表示Sum of Squares for Total。 称为回归平方和,简记为SSR或,R表示Regression 称为残差平方和,简记为SSE或,E表示Error 因此平方和分解式可以简记为SST=SSR+SSE 原假设: 统计量:
当原假设成立时,构造的统计量服从自由度为(p,n-p-1)的F分布。给定显著性水平。当大于临界值时,拒绝原假设,认为回归方程显著。 方差分析表 方差来源 自由度 平方和 均方 F值 P值 回归 残差 总和 SST (4)拟合优度
拟合优度用于检验回归方程对样本观测值的拟合优度。在多元线性回归中,决定系数为
样本决定系数的取值在区间内,越近1,表明回归拟合的效果越好;越接近0,表明回归拟合的效果越差。与F检验相比,可以清楚直观的反应回归拟合的效果,但是并不能作为严格的显著性检验。 (5)复相关系数
称
为y关于的样本复相关系数。。在两个变量的简单相关系数中,相关系数没有正负之分,而复相关系数表示的是因变量y对全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而复相关系数都取正号。
(6)多重共线性
多元线性回归方程模型中有一个基本假设,就是要求设计矩阵X的秩rank(X)=p+1,即要求X中的列向量之间线性无关,如果存在不全为0的P+1个数,使得
则自变量之间存在着多重共线性。 多重共线性的诊断:(方差扩大因子法)
对自变量做中心标准化,则为自变量的相关阵。记称其主对角线元素为自变量的方差扩大因子(variance inflation factor,VIF)。 当就说明自变量与其他自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘估计值。
设计过程(步骤)或程序代码:
(1)打开SPSS软件,导出数据
(2)分析—相关—双变量相关—变量:y,x1,x2,x3—确定
(3)分析—回归—线性回归(因变量:y;自变量:x1,x2,x3)—确定 (4)分析—相关—双变量相关—变量:y,x1,x2—确定
(5)分析—回归—线性回归(因变量:y;自变量:x1,x2)—确定
(6)分析---回归---线性回归(因变量:y;自变量:x1,x2,x3;统计量:选中共线性诊断;继续)----确定
(7)分析---回归---线性回归(因变量:y;自变量:x1,x2,x3;保存:预测值:未标准化;残差:未标准化;预测区间:均值,置信水平为95%;继续)----确定
设计结果与分析(可以加页):
(2) 相关性 y Pearson 相关性 显著性(双侧) N y 1 x1 .556 .095 10 10 1 x2 .731 .016 10 .113 .756 10 10 1 *x3 .724 .018 10 .398 .254 10 .547 .101 10 10 1 * x1 Pearson 相关性 显著性(双侧) N .556 .095 10 .731 .016 10 .724 .018 10 ** x2 Pearson 相关性 显著性(双侧) N .113 .756 10 .398 .254 10 x3 Pearson 相关性 显著性(双侧) N .547 .101 10 10 *. 在 0.05 水平(双侧)上显著相关。
(3) 输入/移去的变量 模型 1 输入的变量 x3, x1, x2 a移去的变量 方法 . 输入 a. 已输入所有请求的变量。 模型汇总 模型 1 R .898 aR 方 .806 调整 R 方 标准 估计的误差 .708 23.44188 a. 预测变量: (常量), x3, x1, x2。 复相关系数R=0.898,决定系数=0.806,由决定系数看回归方程高度显著。 Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 549.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y 由方差分析表可以知道,F=8.283,P值=0.015,表明回归方程高度显 著,说明x1,x2,x3整体上对y有显著的线性影响。 系数 非标准化系数 模型 1 (常量) x1 B -348.280 3.754 标准 误差 176.459 1.933 标准系数 试用版 t -1.974 .385 1.942 Sig. .096 .100 a
x2 x3 a. 因变量: y 7.101 12.447 2.880 10.569 .535 .277 2.465 1.178 .049 .284
1.回归方程为 :
2.回归系数的显著性检验:自变量x2对y有影响,其中x3的P值=0.284。
因此,这个模型通过了显著性检验但没有通过回归系数的检验,自变量x3对因变量y不显著,所以下一步要剔除不显著的回归系数x3,重新建立回归模型.
(4) 相关性 y Pearson 相关性 显著性(双侧) N y 1 x1 .556 .095 10 10 1 x2 .731 .016 10 .113 .756 10 10 1 * x1 Pearson 相关性 显著性(双侧) N .556 .095 10 .731 .016 10 * x2 Pearson 相关性 显著性(双侧) N .113 .756 10 10 *. 在 0.05 水平(双侧)上显著相关。
(5) 输入/移去的变量 模型 1 输入的变量 x2, x1 a移去的变量 方法 . 输入 a. 已输入所有请求的变量。 模型汇总 模型 1 R .872 aR 方 .761 调整 R 方 标准 估计的误差 .692 24.08112 a. 预测变量: (常量), x2, x1。
Anova 模型 1 回归 残差 总计 平方和 12893.199 4059.301 16952.500 df 2 7 9 均方 6446.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y 系数 非标准化系数 模型 1 (常量) x1 x2 a. 因变量: y B -459.624 4.676 8.971 标准 误差 153.058 1.816 2.468 标准系数 试用版 t -3.003 .479 .676 2.575 3.634 Sig. .020 .037 .008 a
实验分析:
1.复相关系数R=0.872,决定系数=0.761,由决定系数看回归方程高度显著。 2. 由方差分析表可以知道,F=11.117,P值=0.007,表明回归方程高度显 著,说明x1,x2整体上对y有显著的线性影响。
3.回归系数的显著性检验,自变量x1,x2对y有影响,其中x1的P值=0.037最大。
4。标准化回归方程为 :
综上所诉,这个回归模型即通过了方程显著性检验,也通过了回归系数显著行检验,所以次模型是有效的
(6) 系数 非标准化系数 模型 1 (常量) x1
B -348.280 3.754 标准 误差 176.459 1.933 标准系数 试用版 t -1.974 .385 1.942 Sig. .096 .100 共线性统计量 容差 VIF a .825 1.211
x2 x3 a. 因变量: y 7.101 12.447 2.880 10.569 .535 .277 2.465 1.178 .049 .284 .687 .586 1.455 1.708
从上图可知,次模型中,自变量自变量x1,x2,x3的多重共线性的VIF统计量的值都很小,小于10,说明建立的回归模型不存在多重共线性问题。
(7) 残差统计量 a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: y 极小值 175.4748 -1.438 10.466 188.3515 -25.19759 -1.075 -2.116 -97.61523 -3.832 .894 .000 .099 极大值 292.5545 1.567 20.191 318.1067 33.22549 1.417 1.754 50.88274 2.294 5.777 3.216 .642 均值 231.5000 .000 14.526 240.1835 .00000 .000 -.123 -8.68348 -.255 2.700 .486 .300 标准 偏差 38.95206 1.000 3.127 49.83914 19.14022 .816 1.188 43.43220 1.658 1.555 .976 .173 N 10 10 10 10 10 10 10 10 10 10 10 10 由上表可知,标准化和学生化的残差绝对值都下于3,证明此模型中不存在异常值
上表是列出了模型的残差,预测值和预测的置信区间
设计体会与建议:
通过课程设计,使我深深体会到,干任何事都必须耐心,细致.课程设计
过程中,许多计算有时不免令我感到有些心烦意乱:有几次因为不完全理解,只能重来.说实话,课程设计真的有点累.然而,当我一着手清理自己的设计成果,漫漫回味这两周的心路历程,一种少有的成功喜悦即刻使倦意顿消。
短短两周的课程设计,使我发现了自己所掌握的知识是真正如此的缺乏,自己综合应用所学的专业知识能力是如此的不足,几年来的学习了那么多的课程,今天才知道自己并不会用.经过这次的回归分析的课程设计,我个人也得到了不少的收获,一方面加深了我对课本理论的知识,另一方面也提高了实验操作能力。做实验,必须要弄懂实验的原理,在这里,我深深的体会到哲学上理论对时间的指导作用,而且体会到了实验的操作能力靠自己亲自动手,亲自动脑,亲自去请教别人才能提高的。
设计成绩:
教师签名:
年 月 日
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 回归
- 课程
- 分析
- 设计