毕业论文4

更新时间:2024-04-05 21:02:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

○ A 基础理论 ● B 应用研究 ○ C 调查报告 ○ D 其他

统计回归模型的若干应用

二级学院 : 数学与计算科学学院 专 业 : 数学与应用数学 年 级 : 学 号 : 作者姓名 : 指导教师 :

完成日期 :

本科生毕业设计(论文)

目 录

1引言 ............................................................................................................................ 1 1.1历史背景 .............................................................................................................. 1 1.2回归模型的一般形式 .......................................................................................... 2 1.3统计回归模型的类型 .......................................................................................... 3 1.4统计回归模型的建模步骤 .................................................................................. 3 2统计回归模型的若干应用 ........................................................................................ 4 2.1统计回归模型在经济中的应用 .......................................................................... 4 2.2统计回归模型在生物医药中的应用 .................................................................. 9 2.3统计回归模型在教育统计中的应用 ................................................................ 16 3结束语 ...................................................................................................................... 20

统计回归模型的若干应用

摘 要:总结了统计回归模型在经济、生物医药、教育统计等方面的应用. 关键词:统计回归;模型;分析;应用

Some Applications of Statistical Regression Model

Abstract:Some applications of the statistical regression model are summarized in the economic, biological medicine and educational statistics etc.

Key words: statistical regression; model; analysis; applications

在生活中,许多实际问题都可以建立数学模型进行分析、解决. 而在解决实际问题时,用途非常广泛的一类随机模型——统计回归模型发挥着巨大的作用,本文将详细了解统计回归模型及其应用,一一揭开统计回归模型的奥秘.

1引言

1.1历史背景

回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家F. 高尔顿[1] (F. Galton, 1822-1911). 高尔顿和他的学生、现代统计学的奠基者之一K. 皮尔逊(K. Pearson, 1856-1936)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线. 计算出的回归直线方程为

?y?33.73?0.516x (1.1)

这种趋势及回归方程总的表明父母平均身高x每增加一个单位时,其成年儿子的身高y也平均增加0.516个单位. 这个结果表明,虽然高个子父辈确有生高个子儿子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右. 反之,矮个子父辈确有生矮个子儿子的趋势,但父辈身高减少一个单位,儿子身高仅减少半个单位左右. 通俗地说,一群特高个子父辈(例如排球运动员)的儿子们在

1

同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均高度向中心回归了. 正是因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父辈个子高其子女个子更高,父辈子女矮其子女更矮的两极分化现象. 这个例子生动地说明了生物学中“种”的概念的稳定性. 正是为了描述这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈身高x与子代身高y的关系.

1.2回归模型的一般形式

下面介绍回归模型的一般形式,更详细内容可参考[1].

如果变量x1,x2,…,xp与随机变量y之间存在着相关关系,则随机变量y与相关变量x1,x2,…,xp之间的概率模型为

y?f(x1,x2,…,xp)?? (1.2)

其中,随机变量y称为被解释变量(因变量);x1,x2,…,xp称为解释变量(自变量),?为随机误差.

当概率模型(1.2)式中回归函数为线性函数时,即有

y??0??1x1??2x2?…??pxp?? (1.3)

其中,?0,?1,?2,…,?p为未知参数,常称它们为回归系数. 线性回归模型的“线性”是针对未知参数?i(i?0,1,2,…,p)而言的. 对于回归解释变量的线性是非本质的,因为解释变量是非线性时,常可以通过变量的替换把它转化成线性的.

在整个回归分析中,线性回归的统计模型最为重要. 一方面是因为线性回归的应用最广泛;另一方面是只有在回归模型为线性的假定下,才能得到比较深入和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行处理. 因此,线性回归模型的理论和应用是本文讨论的重点.

对线性回归模型我们通常研究的问题有:

2

(1) 如何根据样本(xi1,xi2,?,xip;yi)(i?1,2,?,n)求出?0,?1,?2,?,?p及方差?2的估计;

(2) 对回归方程及回归系数的种种假设进行检验;

(3) 如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析.

1.3统计回归模型的类型

根据回归分析的主要内容,将常见的统计回归模型分成以下六种类型[1]: (1)一元线性回归模型; (2)可线性化的非线性回归模型; (3)多元线性回归模型; (4)逐步回归模型;

(5)含定性自变量的回归模型; (6)违背基本假设的回归模型.

1.4统计回归模型的建模步骤

在实际问题回归分析模型的建立和分析中有如下几个重要阶段[1]:

3

具体问题 设置指标变量 收集整理数据 构造理论模型 估计模型参数 模型 检验 Y 模型运用 N 修改 因素分析 变量控制 决策预测

2统计回归模型的若干应用

统计回归模型在经济、生物医药、教育统计等方面有重要的应用.本文主要研究线性回归模型这这些方面的应用.

2.1统计回归模型在经济中的应用

在经济生活当中,诸如牙膏的销售量、软件开发人员的薪金、投资额与生物总值和物价指数[2]等经济具体问题中,通过大量的数据,建立相关的统计回归模型,研究变量之间的相关关系,有利于有效地进行经济控制、决策预测,达到宏观调控的目的. 下面就以广告费用与销售额的的关系和技改投资与增加利润的关系为例,作出统计回归模型.

例2.1.1[3] 为了确定某产品的广告费用与销售额的关系,今做出统计资料如

4

下表

广告费x/万元 销售额y/万元 2 30 4 40 5 60 6 50 8 70 表2.1.1

请建立和求解回归模型,解释得到的结果,并估计广告费为10万时,对应的销售额.

解 记广告费为自变量x,销售额为因变量y,表2.1.1的样本数据为

(xi,yi)(i?1,2,?,5),绘制散点图(见图2.1.1),可以直观地看出与大致呈线性关

系,所以采用一元线性回归模型y??0??1x??. 在matlab里的输入和输出程序可见附录A.

广告费和销售额的一元线性回归模型706560销售额(万元)5550454035302345广告费(万元)678

图2.1.1

5

Residual Case Order Plot

20 15 10 5 Residuals0 -5 -10 -15 -20 -25 0.5

1

1.5

2

2.5 3 3.5

Case Number

4

4.5

5

5.5

图2.1.2

计算结果可以整理成表2.1.2,绘得的图形见图2.1.1和图2.1.2.

表2.1.2 例2.1.1的一元线性回归模型计算结果

回归系数 回归系数估计值 b0?17.5 b1?6.5 回归系数置信区间 [-10.0455,45.0455] [1.3849,11.6151] ?0 ?1 ??17.5?6.5x yR2?0.8450,F?16.3548,p?0.0272,s2?51.6667

由计算结果得知虽然F统计量不大,但是p值比0.05小,说明回归模型还是显著的. 决定系数R2接近1,说明回归模型的拟合精确程度比较高. 且由图2.1.2残差图可看出5个数据的误差均值置信区间均含零点,说明一元线性回归

??17.5?6.5x能较好地符合原始数据. 于是,当广告费x?10时,估计对应模型y的销售额

6

y?17.5?6.5?10?82.5.

例2.1.2[4] 某市逐年用于企业的技术改造资金与产品销售利润的增加额如表2.1.3所示. 试问:若下一年用于技改投资为60万元,预计销售利润能增加多少? 表2.1.3 单位:万元 年份 2004 2005 2006 2007 2008 技改投资 15 18 24 30 35 增加利润 48 57 70 83 109 年份 2009 2010 2011 2012 技改投资 39 44 48 50 增加利润 124 131 136 153 解 记技改投资为自变量x,增加利润为因变量y,表2.1.3的样本数据为

(xi,yi)(i?1,2,?,9),绘制散点图(见图2.1.3),可以直观地看出与大致呈线性关

系,所以采用一元线性回归模型y??0??1x??. 在matlab里的输入和输出程序可见附录B.

技改投资和增加利润的一元线性回归模型160140增加利润(万元)1201008060401520253035技改投资(万元)404550

图2.1.3

7

Residual Case Order Plot

15 10 5 Residuals 0 -5 -10 -15 1

2

3

4 5 6 Case Number

7

8

9

图2.1.4

计算结果可以整理成表2.1.4,绘得的图形见图2.1.3和图2.1.4.

表2.1.4 例2.1.2的一元线性回归模型计算结果

回归系数 回归系数估计值 b0?2.5695 b1?2.9303 回归系数置信区间 [-10.0187,15.1576] [2.5783,3.2823] ?0 ?1 ??2.5695?2.9303x yR2?0.9823,F?387.5163,p?0.0000,s2?29.0268

由计算结果得知虽然F统计量较大,p值为0,远小于0.05,说明回归模型是显著的. 决定系数R2接近1,说明回归模型的拟合精确程度比较高. 且由图2.1.4残差图可看出9个数据的误差均值置信区间均含零点,说明一元线性回归

??2.5695?2.9303x能较好地符合原始数据. 该模型表明,当技改投资每增模型y加1万元,增加利润将增长近3万元. 于是,当技改投资x?60时,估计对应的增加利润为

8

y?2.5695?2.9303?60?178.3875.

2.2统计回归模型在生物医药中的应用

在生物医药领域,如粮食产量与施肥量的关系、酶促反应、医用药物的疗效等方面,研究几个变量之间的关系,最常用的莫过于统计回归模型.本文主要通过医药公司研究新止痛药的疗效的例子,建立多元线性回归模型,来进行药物疗效的预测和控制,以通过研究生菜的氮肥施肥量与产量的关系,建立二次多项式回归模型,来进行有效的施肥,提高作物的产量.

例2.2.1[2] 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物实验,患有同种病痛的病人使用这种新止痛剂的以下4个剂量中的某一个:2g,5g,7g和10g,并记录每个病人病痛明显减轻的时间(以分钟计). 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试.通过比较每个病人血压的历史数据,从低到高分成3组,分别记作0.25,0.50,0.75.实验结束后,公司的记录结果如下表三(性别以0表示女,1表示男).

请你为公司建立一个模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间.

表2.2.1

病人序号

1 2 3 4 5 6 7 8 9 10 11 12 13 病痛减轻时间(min) 用药剂量(g)

35 2 43 2 55 2 47 2 43 2 57 2 26 5 27 5 28 5 29 5 22 5 29 5 19 7 9

性别

0 0 0 1 1 1 0 0 0 1 1 1 0 血压组别 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 14 15 16 17 18 19 20 21 22 23 24

11 14 23 20 22 13 8 3 27 26 5 7 7 7 7 7 10 10 10 10 10 10 0 0 1 1 1 0 0 0 1 1 1 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75

解 记病痛减轻时间为y,用药剂量为x1,性别为x2,血压组别为x3,

?0,女为了表示性别,定义x2??

?1,男?0.25,低档?为了表示三组血压组别,定义x3=?0.50,中档

?0.75,高档?为了简单起见,假定用药剂量对病痛减轻时间的作用是线性的;性别、血压、用药剂量诸因素之间没有交叉作用,可建立多元线性回归模型,为

y??0??1x1??2x2??3x3??

其中?0,?1,?2,?3是待估计的回归系数,?是随机误差. 在matlab的输入程序和输出结果可见附录C.

计算结果可以整理成表2.2.2,绘得的图形见图2.2.1和图2.2.2

表2.2.2 例2.2.1的多元线性回归模型计算结果

回归系数 回归系数估计值 b0?49.0735 b1??4.1373 回归系数置信区间 [37.5629 ,60.5842] [-5.2660,-3.0085] [-0.9148,12.2481] [-17.6212,14.6212] ?0 ?1 ?2 b2?5.6667 b3??1.5 ?3 10

??49.0735?4.1373x1?5.6667x2?1.5x3 yR2?0.7553,F?20.5750,p?0.0000,s2?59.7287

由计算结果得知虽然F统计量不大,但是p值为0,远比0.05小,说明回归模型还是显著的. 虽然由图2.2.1残差图可看出第3个数据和第22个数据的误差均值置信区间都不含零点,但置信区间偏离零点的程度不严重,不必剔除. 所以,

??49.0735?4.1373x1?5.6667x2?1.5x3成立. 比如,多元线性回归模型y利用模型

可以估计(或预测)一个低血压的女病人用2g剂量的药品,其病痛减轻的时间为

?y?b0?b1?2?b2?0?b3?0.25?40.4239.

Residual Case Order Plot

25 20 15 10 5 Residuals0 -5 -10 -15 -20 -25 5

10 15

Case Number

20

图2.2.1残差分析图

11

6050403020100012345678910

图2.2.2预测图

例2.2.2[5] 某地区作物生长所需的营养素主要是氮(N)、钾(K)、磷(P). 某作物研究在该地区对土豆和生菜做了一定数量的实验,实验数据如下列表2.2.3所示,其中,ha表示公顷,t表示吨,kg表示公斤.当一个营养素的施肥量变化时,总将另外两个营养素的施肥量保持在第七个水平上,如对土豆产量关于N的施肥量做实验时,P与K的施肥量分别取为196kg/ha与372kg/ha.试分析生菜的N肥的施肥量其产量之间的关系.

表2.2.3 生菜:N 施肥量(kg/ha) 产量(t/ha) 0 11.02 28 12.7 56 14.56 84 16.27 112 17.75 168 22.59 224 21.63 280 19.34 336 16.12 392 14.11 12

解 记施肥量为自变量x,生菜的产量为因变量y,表2.2.3的样本数据为

(xi,yi)(i?1,2,?,10). 首先,建立一元线性回归模型y??0??1x??[6]

. 在matlab

里的输入和输出程序可见附录D.

计算结果可以整理成表2.2.4,绘得的图形见图2.2.3和图2.2.4.

表2.2.4 例2.2.2的一元线性回归模型计算结果

回归系数 回归系数估计值 b0?14.9504 b1?0.0099 回归系数置信区间 [10.4751,19.4258] [-0.0113,0.0310] ?0 ?1 ??14.9504?0.0099x yR2?0.1263,F?1.1564,p?0.3136,s2?13.8764

由计算结果得知F统计量很小,p值大于0.05,说明一元线性回归模型不显著. 决定系数很小,剩余方差较大,误差均值的置信区间很宽,这些都说明拟合效果不好. 因此,对于表2.2.3的样本数据,不能采用一元线性回归模型.

生菜的施肥量和产量的一元线性回归模型242220产量(kg)1816141210050100150200250施肥量(kg)300350400

图2.2.3

13

Residual Case Order Plot

10 5 Residuals 0 -5 -10 1

2

3

4

5 6 7 Case Number

8

9

10

图2.2.4

从图2.2.3可以发现y与x大致成二次函数关系,所以采用二次多项式回归模型y??0??1x??3x2??. 在matlab的输入程序和输出结果可见附录D.

计算结果可以整理成表2.2.5,绘得的图形见图2.2.5和图2.2.6.

表2.2.5 例2.2.2的二次多项式回归模型计算结果

回归系数 回归系数估计值 b0?10.2294 b1?0.1013 b2??0.0002 ??10.2294?0.1013x?0.0002x2 yR2?0.9249,F?43.1089,p?0.0001,s2?1.3630

回归系数置信区间 [8.2948,12.1640] [0.0754,0.1273] [-0.0003,-0.0002] ?0 ?1 ?2 由计算结果得知F统计量较大,p值小于0.05,说明二次多项式回归模型是显著的. 三个回归系数的置信区间都不含零点,说明回归模型的三项对因变量的

14

影响都显著. 决定系数接近1,说明回归模型的拟合精确程度比较高. 虽然第6个数据的误差均值置信区间[0.4170.3.7033]不含零点,但是置信区间偏离零点的程度不严重,不必剔除. 故二次多项式回归模型y?10.2294?0.1013x?0.0002x2显著. 由此,可根据此模型控制氮肥的施肥量使得生菜的产量达到最大.

生菜的施肥量和产量的二次多项式回归模型2520产量(kg)1510050100150200250施肥量(kg)300350400

图2.2.5

15

Residual Case Order Plot

3 2 1 Residuals 0 -1 -2 -3 1

2

3

4

5 6 7 Case Number

8

9

10

图2.2.6

2.3统计回归模型在教育统计中的应用

在事物质量评价的统计当中,诸如期刊质量评估、教学质量评估等方面,都有许多因素影响着因变量,但不一定每一个因素都要关键作用,如果从中挑出影响力较大的几个自变量构造其与因变量的回归模型,将更加有利于质量的评估.本文以教师教学质量评价和课堂教学质量评价为例,建立逐步回归模型,研究影响教学质量的重要因素,使教学管理部门给教师提出一些合理的建议,以提高对教师的总体评价[7],利于教学改革和教学质量的提高.

例2.3.1[2] 为了考评教师的教学质量,教学研究部门设计了一个教学评估表,对学生进行一次问卷调查,要求学生对12位教师的15门课程( 其中3为教师有两门课) 按以下 7项内容打分,分值为 1—5分(5分最好,1分最差):

x1~课程内容组织的合理性;x2~主要问题展开的逻辑性;x3~回答学生问

题的有效性;x4~课下交流的有助性;x5~教科书的帮助性;x6~考试评分的公正性 ;Y~对教师的总体评价.

16

收回问卷调查后,得到了学生对12位教师、15门课程各项评分的平均值,见表2.3.1:

表2.3.1教师教学质量评价汇总表

教师编号 课程编号 1 2 3 4 5 6 7 8 9 10 11 12 3 4 9

解 运用IBM SPSS Statics软件进行逐步回归分析[8],可输出结果如表2.3.2~表2.3.6所示.(可见附录E)

表2.3.2显示变量的引入或剔除过程,逐步回归法首先引入了变量x2,建立了模型1,然后引入变量x3,建立了模型2,接着又引入了变量x1,建立了模型3,检验原变量时剔除了变量x2,最终建立的模型4包含变量x1和x3.

201

224 301 301 301 309 311 311 312 312 333 424 351 411 424 x1

x2

x3

x4

x5

x6

Y 4.11 3.38 3.17 4.39 4.69 3.25 2.84 3.95 4.18 4.44 4.47 4.61 3.17 4.15 4.33 4.46 4.11 3.58 4.42 4.62 3.18 2.47 4.29 4.41 4.59 4.55 4.67 3.71 4.28 4.24 4.42 3.82 3.31 4.37 4.47 3.82 2.79 3.92 4.36 4.34 4.45 4.64 3.41 4.45 4.38 4.23 3.29 3.24 4.34 4.53 3.92 3.58 4.05 4.27 4.24 4.43 4.52 3.39 4.1 4.35 4.1 3.6 3.76 4.4 4.67 3.62 3.5 3.76 4.75 4.39 4.57 4.39 4.18 4.07 4.48 4.56 3.99 4.39 3.63 4.63 3.5 2.84 2.76 4.59 2.64 4.45 3.48 4.06 3.76 4.15 4.37 3.82 3.75 4.27 4.57 4.14 3.84 4.11 4.11 4.38 4.4 4.21 4.06 4.43 4.5 表2.3.3显示各个模型的拟合情况,模型4的复相关系数R?0.988,判定系数

R2?0.977,调整判定系数为0.973,估计值的标准误差为1.

表2.3.4显示各个模型的方差分析结果,模型4的回归均方为2.547,残差的均方为0.01,F?254.675,P?0.000.线性回归显著.

表2.3.5显示各个模型的偏回归系数结果,模型4的常数项=-1.247,x3的回归系数=0.768,回归系数的标准误差=0.081,回归系数的t检验的t值=9.463,

P?0.000,x1的回归系数=0.510,回归系数的标准误差=0.058,回归系数的t检

17

验的t值=8.724,P?0.000,按照??0.05的水平,认为两个偏回归系数都显著有意义.模型4的回归方程为y?0.510x1?0.768x3?1.247.

表2.3.6显示各个模型方程外的变量的相关统计量,包括Beta、t值、P值、偏相关系数和共线性统计的容忍值.可见模型4外的变量x4、x5、x6、x2的偏回归系数都大于0.05,故不能引入方程.

结果显示,在最终模型y?0.510x1?0.768x3?1.247里回归变量只有x1和x3,是一个简单易用的模型,据此可把课程内容组织的合理性(x1)和回答学生问题的有效性(x3)列入考评的重点. 模型4表明,x1的分值每增加一分,对教师的总体评价就增加约0.5分;x3的分值每增加一分,对教师的总体评价就增加约0.77分.应建议教师注重这两方面的工作.

例2.3.2[9] 某大学对教师课堂教学质量评价采用的16项指标,分别是:x1代表工作热情、精神饱满;x2代表课堂组织情况;x3代表讲课认真程度;x4代表课后辅导答疑及时耐心;x5代表教学内容正确、容量大、速度恰当;x6代表授课内容注重科学性、逻辑性和系统性;x7代表能够明确重点和难点,处理得当;

x8代表理论联系实际情况;x9代表启发创新思维;x10代表作业布置和批改情况;x11代表根据教学需要,采用不同方法;x12代表多媒体教学手段运用情况;x13代

表教学语言规范、生动,板书清晰、合理;x14代表能够结合教学内容和课堂纪律等对学生进行教育;x15代表教师遵守纪律情况;x16代表对授课教师的总体印象. y为学生、专家、教师对14为位教师的打分.试进行考评课堂教学质量的定量分析.

表2.3.7 课堂教学质量评价汇总表

序x1x2x3x4x5x6x7x8x9x10x11x12x13x14x15x16y号 1 89888888889 83 86 85 90 86 85 818

2 3 4 5 6 7 8 9 10 11 12 13 14

8 84 89 93 84 90 80 89 82 91 92 89 84 86 1 85 92 91 88 94 83 87 87 90 91 89 85 87 9 86 85 91 87 84 85 91 77 86 92 89 83 89 9 91 82 89 80 83 85 92 83 87 91 91 87 89 6 84 79 95 92 86 85 92 93 87 90 94 88 90 4 94 84 90 90 90 89 88 87 90 92 91 89 89 6 86 84 92 93 91 89 91 87 92 93 92 91 90 9 82 86 93 92 89 87 89 86 89 91 85 91 89 8 90 87 95 88 89 84 92 84 92 92 92 88 86 82 93 92 89 88 84 86 86 88 85 84 87 87 86 92 89 89 92 91 90 91 90 88 87 84 86 87 85 86 87 88 83 85 88 86 82 83 85 81 83 83 86 94 91 90 87 88 93 94 90 78 82 81 84 90 84 90 90 91 88 92 92 94 91 89 90 92 91 92 93 90 90 91 89 92 91 92 86 81 82 84 86 85 86 88 85 84 84 87 87 87 8 84 89 93 84 90 80 89 82 91 93 92 84 86 解 运用IBM SPSS Statics软件进行逐步回归分析,可输出结果如表2.3.8~表2.3.12所示.(可见附录F)

表2.3.8显示变量的引入或剔除过程,逐步回归法首先引入了变量x1,建立了模型1,然后引入变量x14,建立了模型2,最终建立的模型2包含变量x1和x14.

表2.3.9显示各个模型的拟合情况,模型2的复相关系数R?0.986,判定系数

R2?0.973,调整判定系数为0.968,估计值的标准误差为0.757.

表2.3.10显示各个模型的方差分析结果,模型2的回归均方为111.595,残差的均方为0.573,F?194.530,P?0.000.线性回归显著.

表2.3.11显示各个模型的偏回归系数结果,模型2的常数项=-11.941,x1的回

19

归系数=0.929,回归系数的标准误差=0.084,回归系数的t检验的t值=11.044,

P?0.000,x14的回归系数=0.210,回归系数的标准误差=0.112,回归系数的t检

验的t值=1,883,P?0.086,按照??0.1的水平,认为两个偏回归系数都显著有意义.模型2的回归方程为y?0.929x1?0.210x14?11.941.

表2.3.12显示各个模型方程外的变量的相关统计量,包括Beta、t值、P值、偏相关系数和共线性统计的容忍值.可见模型2外的变量x2、x3、x4、x5、x6、x7、

x8、x9、x10、x11、x12、x13、x15、x16的偏回归系数都大于0.1,故不能引入方程.

x14?11.941结果显示,在最终模型y?0.929x1?0.210里回归变量只有x1和

x14,是一个简单易用的模型,据此可把工作热情、精神饱满(x1)和能够结合教学

内容和课堂纪律等对学生进行教育(x14)列入考评的重点. 模型2表明,x1的分值每增加一分,对教师的总体评价就增加约0.929分;x14的分值每增加一分,对教师的总体评价就增加约0.210分. 应建议该大学教师注重这两方面的工作,以提高大学课堂的教学质量.

3结束语

统计回归模型在经济、生物医药、教育统计等方面都有广泛的应用,对于研究变量的关系具有重要的作用,本文简单列举了其在经济、生物医药、教育统计三方面的应用,并建立了相应的统计回归模型,如:一元线性回归模型、多元线性回归模型、二次多项式回归模型、逐步回归模型,来解决实际问题,体验其应用.

20

参考文献

[1] 何晓群,刘文卿. 应用回归分析[M]. 北京:中国人民大学出版社,2007:5-9. [2] 姜启源,谢金星,叶俊. 数学模型[M]. 北京:高等教育出版

社,2004:322-327.

[3] 林军,陈翰林. 数学建模教程[M]. 北京:科学出版社,2011:105.

[4] 湖南省大学生数学建模竞赛专家组. 数学建模[M]. 上海:华中科技大学出

版社,2006:329.

[5] 赵静,但琦. 数学建模与数学实验[M]. 北京:高等教育出版社,2009:281. [6] 章绍辉. 数学建模[M]. 北京:科学出版社,2010:262-265.

[7] N.R. Draper,H. Smith. Applied Regression Analysis (third edition)[M].

John Wiley & Sons,Inc.1998:100-104.

[8] 汪冬华. 多元统计分析与SPSS应用[M]. 上海:华东理工大学出版

社,2011:118-122.

[9] 陈高波. 偏最小二乘回归在课堂教学质量评价中的应用[J]. 科技信

息,2009,15:17-18.

21

附录

附录A 例2.1.1建立模型的matlab输入程序和输出结果 以下是该模型的MATLAB输入程序: x=[2;4;5;6;8];

y=[30;40;60;50;70];

>> figure(1),plot(x,y,'k+'),lsline %作散点图

>> title('广告费和销售额的一元线性回归模型')

>> xlabel('广告费(万元)'),ylabel('销售额(万元)') X=[ones(size(x)),x];[b,bint,r,rint,stat]=regress(y,X) %回归分析 >> figure(2),rcoplot(r,rint) %残差分析 输出结果如下: b =

17.5000 6.5000 bint =

-10.0455 45.0455 1.3849 11.6151 r =

-0.5000 -3.5000 10.0000 -6.5000 0.5000 rint =

-17.0365 16.0365

22

-26.4489 19.4489

-1.0243 21.0243 -25.8581 12.8581 -16.0365 17.0365 stat =

0.8450 16.3548 0.0272 51.6667

附录B 例2.1.2建立的模型的matlab输入程序和输出结果 x=[15;18;24;30;35;39;44;48;50];

y=[48;57;70;83;109;124;131;136;153];

>> figure(1),plot(x,y,'k+'),lsline %作散点图

>> title('技改投资和增加利润的一元线性回归模型')

>> xlabel('技改投资(万元)'),ylabel('增加利润(万元)')

>> X=[ones(size(x)),x];[b,bint,r,rint,stat]=regress(y,X) %回归分析

输入结果如下: b =

2.5695 2.9303 bint =

-10.0187 15.1576 2.5783 3.2823 r =

1.4763 1.6855 -2.8962 -7.4779 3.8707 7.1496 -0.5018

-7.2229 3.9165 rint =

-9.2901 12.2428 -9.7245 13.0955 -15.0201 9.2277 -18.1671 3.2113 -8.5427 16.2842

23

-3.6469 17.9462

-12.8567 11.8532 -16.7097 2.2639 -6.8286 14.6616 stat =

0.9823 387.5163 0.0000 29.0268

>> figure(2),rcoplot(r,rint) %残差分析

附录C 例2.2.1的多元线性回归模型的matlab输入程序和输出结果 在matlab输入如下程序,求解多元线性回归模型:

x1=[2,2,2,2,2,2,5,5,5,5,5,5,7,7,7,7,7,7,10,10,10,10,10,10]; x2=[0,0,0,1,1,1,0,0,0,1,1,1,0,0,0,1,1,1,0,0,0,1,1,1];

x3=[0.25,0.5,0.75,0.25,0.5,0.75,0.25,0.5,0.75,0.25,0.5,0.75,0.25,0.5,0.75,0.25,0.5,0.75,0.25,0.5,0.75,0.25,0.5,0.75];

y=[35,43,55,47,43,57,26,27,28,29,22,29,19,11,14,23,20,22,13,8,3,27,26,5]; X=[ones(length(y),1),x1',x2',x3'];%把行向量转秩为列向量 Y=y'; %把行向量转秩为列向量 [b,bint,r,rint,stats]=regress(Y,X) rcoplot(r,rint) %残差分析 z=b(1)+b(2)*x1+b(3)*x2+b(4)*x3; plot(X,Y,'k+',X,z,'r') %作图及预测

输出结果如下: b =

49.0735 -4.1373 5.6667 -1.5000 bint =

37.5629 60.5842 -5.2660 -3.0085 -0.9148 12.2481 -17.6212 14.6212 r = -5.4240 2.9510 15.3260

24

0.9093 -2.7157 11.6593 -2.0123 -0.6373 0.7377 -4.6789 -11.3039 -3.9289 -0.7377 -8.3627 -4.9877 -2.4044 -5.0294 -2.6544 5.6740 1.0490 -3.5760 14.0074 13.3824

-7.2426 rint =

-19.7587 -12.1263 2.7392 -13.6520 -17.8031 -1.7976 -17.2244 -16.4278 -14.5007 -19.7561 -26.1421 -19.0551 -15.9762 -23.6408 -20.0423 -17.6035 8.9106 18.0282 27.9128 15.4706 12.3717 25.1162 13.1999 15.1533 15.9762 10.3983 3.5342 11.1972 14.5007 6.9153 10.0668 12.7947

25

-20.6384 10.5796

-17.8439 12.5351 -8.6385 19.9865 -14.0859 16.1840 -18.0429 10.8909 1.0734 26.9413 -0.3401 27.1048 -21.3921 6.9068 stats =

0.7553 20.5750 0.0000 59.7287

附件D 例2.2.2所建立的模型的matlab输入程序和输出结果 一元线性回归模型

x=[0;28;56;84;112;168;224;280;336;392];

>> y=[11.02;12.70;14.56;16.27;17.75;22.59;21.63;19.34;16.12;14.11]; >> figure(1),plot(x,y,'k+'),lsline %作散点图 xlabel('施肥量(kg)'),ylabel('产量(kg)')

>> title('生菜的施肥量和产量的一元线性回归模型')

>> X=[ones(size(x)),x];[b,bint,r,rint,stat]=regress(y,X) %回归分析

输出结果如下: b =

14.9504 0.0099 bint =

10.4751 19.4258 -0.0113 0.0310 r = -3.9304 -2.5269 -0.9433 0.4903 1.6939 5.9810 4.4681 1.6253

26

-2.1476

-4.7104 rint =

-10.9807 3.1198 -10.3376 5.2839 -9.2377 7.3511 -8.0010 8.9815 -6.7980 10.1857 -0.9992 12.9612 -3.2212 12.1575 -6.5885 9.8391 -9.7593 5.4641 -10.4846 1.0638 stat =

0.1263 1.1564 0.3136 13.8764

>> figure(2),rcoplot(r,rint) %残差分析

作二次多项式回归模型

x=[0;28;56;84;112;168;224;280;336;392];

>> y=[11.02;12.70;14.56;16.27;17.75;22.59;21.63;19.34;16.12;14.11]; >> X=[ones(size(x)),x,x.^2];[b,bint,r,rint,stat]=regress(y,X) %回归分析

输出结果如下: b =

10.2294 0.1013 -0.0002 bint =

8.2948 12.1640 0.0754 0.1273 -0.0003 -0.0002 r =

0.7906 -0.1797 -0.5965 -0.7900 -0.8400

27

2.0602

0.6540 -0.5885 -1.2674 0.7574 rint =

-1.1950 2.7762 -2.7156 2.3562 -3.2390 2.0459 -3.4160 1.8360 -3.4115 1.7315 0.4170 3.7033 -1.8278 3.1359 -3.1522 1.9752

-3.4840 0.9492 -0.7049 2.2196 stat =

0.9249 43.1089 0.0001 1.3630

figure(1),plot(x,y,'k+',0:1:400,polyval(b(end:-1:1),0:1:400),'k') %作抛物线图 >> axis([0,400,10,25]),xlabel('施肥量(kg)'),ylabel('产量(kg)') >> title('生菜的施肥量和产量的二次多项式回归模型') >> figure(2),rcoplot(r,rint)

附录E

运用IBM SPSS Statics软件进行逐步回归分析,可得到以下表2.3.2~表2.3.6.

表2.3.2 引入或剔除的变量

输入/移去的变量

模型

输入的变量

移去的变量

方法

步进(准则: F-to-enter 的概

1

x2

. 率 <= .050,F-to-remove 的概率 >= .051).

步进(准则: F-to-enter 的概

2

x3

. 率 <= .050,F-to-remove 的概率 >= .051).

步进(准则: F-to-enter 的概

3

x1

. 率 <= .050,F-to-remove 的概率 >= .051).

a

28

步进(准则: F-to-enter 的概

4

. x2

率 <= .050,F-to-remove 的概率 >= .051).

a. 因变量: Y

表2.3.3 模型摘要 模型汇总 模型 1 2 3 4 R .936 .962 .989 .988 dcbaR 方 .877 .925 .978 .977 调整 R 方 .867 .912 .972 .973 标准 估计的误差 .22238 .18079 .10259 .10000 a. 预测变量: (常量), x2. b. 预测变量: (常量), x2, x3. c. 预测变量: (常量), x2, x3, x1. d. 预测变量: (常量), x3, x1.

表2.3.4 方差分析 Anova 模型 回归 1 残差 总计 回归 2 残差 总计 回归 3 残差 总计 回归 4 残差 总计 a. 因变量: Y b. 预测变量: (常量), x2. c. 预测变量: (常量), x2, x3. d. 预测变量: (常量), x2, x3, x1. e. 预测变量: (常量), x3, x1. 平方和 4.570 .643 5.213 4.821 .392 5.213 5.097 .116 5.213 5.093 .120 5.213 df 1 13 14 2 12 14 3 11 14 2 12 14 均方 4.570 .049 2.410 .033 1.699 .011 2.547 .010 F 92.414 73.744 161.437 254.675 .000 eaSig. .000 b.000 c.000 d

表2.3.5 回归系数 系数 模型 非标准化系数 标准系数 t Sig. a29

B

(常量)

1

x2 (常量)

2

x2 x3 (常量)

3

x2 x3 x1 (常量)

4

x3 x1

a. 因变量: Y

1.064 -1.041 .661 .569 -1.273 -.114 .829 .569 -1.247 .768 .510 -.381 标准 误差

.453 .111 .439 .171 .206 .253 .180 .127 .111 .243 .081 .058 试用版

-.840 .936 9.613 -2.372 .582 .417 3.867 2.769 -5.030 -.100 .606 .578 -.633 6.516 5.125 -5.123 .562 .518 9.463 8.724 .416 .000 .035 .002 .017 .000 .540 .000 .000 .000 .000 .000

表2.3.6 模型外变量

已排除的变量

模型

Beta In

t

Sig.

偏相关

共线性统计量

容差

x1 x3

1

x4 x5 x6 x1

2

x4 x5 x6 x4

3

x5 x6 x4 x5

4

x6 x2

a. 因变量: Y

b. 模型中的预测变量: (常量), x2. c. 模型中的预测变量: (常量), x2, x3. d. 模型中的预测变量: (常量), x2, x3, x1. e. 模型中的预测变量: (常量), x3, x1.

.286 .417 .285 -.088 .206 .578 .197 -.020 .015 .048 -.013 .063 .057 -.020 .046 -.100 eeeedddccccbbbbb

a

1.309 2.769 2.262 -.863 1.291 5.125 1.692 -.223 .090 .596 -.259 .693 .741 -.416 .530 -.633 .215 .017 .043 .405 .221 .000 .119 .827 .930 .564 .801 .504 .474 .685 .607 .540 .353 .624 .547 -.242 .349 .840 .455 -.067 .027 .185 -.082 .214 .218 -.125 .158 -.187 .188 .277 .453 .923 .356 .159 .400 .836 .256 .325 .835 .253 .341 .891 .269 .081

30

附录F

运用IBM SPSS Statics软件进行逐步回归分析,可得到以下表2.3.8~表2.3.12

表2.3.8 引入或剔除的变量 输入/移去的变量 模型 1 x1 输入的变量 移去的变量 . 步进(准则: F-to-enter 的概率 <= .100,F-to-remove 的概率 >= .110). 步进(准则: F-to-enter 的概率 <= .100,F-to-remove 的概率 >= .110). 方法 a2 x14 . a. 因变量: y

表2.3.9 模型摘要 模型汇总 模型 1 2 R .982 .986 baR 方 .964 .973 调整 R 方 .961 .968 标准 估计的误差 .834 .757 a. 预测变量: (常量), x1. b. 预测变量: (常量), x1, x14.

表2.3.10 方差分析 Anova 模型 回归 1 残差 总计 回归 2 残差 总计 a. 因变量: y b. 预测变量: (常量), x1. c. 预测变量: (常量), x1, x14. 平方和 221.156 8.344 229.500 223.190 6.310 229.500 df 1 12 13 2 11 13 均方 221.156 .695 F 318.071 Sig. .000 ba 111.595 .574 194.530 .000 c

表2.3.11 回归系数 系数 模型 非标准化系数 B 1 x1 2 (常量) 1.051 -11.941 .059 6.248 .982 17.835 -1.911 .000 .082 (常量) -4.129 标准 误差 5.143 标准系数 试用版 -.803 .438 t Sig. a31

x1 x14 a. 因变量: y .929 .210 .084 .112 .868 .148 11.044 1.883 .000 .086

表2.3.12 模型外变量

已排除的变量

模型

Beta In

t

Sig.

偏相关

共线性统计量

容差

x2 x3 x4 x5 x6 x7 x8

1

x9 x10 x11 x12 x13 x14 x15 x16 x2 x3 x4 x5 x6 x7 x8

2

x9 x10 x11 x12 x13 x15 x16

a. 因变量: y

-.045 .044 .066 .066 .056 .052 -.076 .080 .020 .036 .071 .090 .148 .070 .091 .046 -.003 .010 .047 .033 .044 -.053 -.006 .005 .003 .024 -.008 .058 .042 ccccccccccccccbbbbbbbbbbbbbbb

a

-.474 .610 1.129 1.205 1.023 .877 -1.311 .837 .293 .534 1.082 1.143 1.883 .938 1.218 .456 -.038 .144 .891 .616 .820 -.953 -.054 .075 .048 .332 -.072 .836 .537 .645 .554 .283 .253 .328 .399 .217 .420 .775 .604 .302 .277 .086 .368 .249 .658 .970 .889 .394 .551 .431 .363 .958 .942 .962 .747 .944 .422 .603 -.142 .181 .322 .342 .295 .256 -.368 .245 .088 .159 .310 .326 .494 .272 .345 .143 -.012 .045 .271 .191 .251 -.289 -.017 .024 .015 .104 -.023 .256 .168 .355 .623 .872 .978 .998 .884 .861 .338 .670 .698 .686 .482 .405 .542 .526 .265 .530 .570 .927 .923 .879 .806 .246 .657 .636 .537 .253 .536 .428 32

b. 模型中的预测变量: (常量), x1. c. 模型中的预测变量: (常量), x1, x14.

33

本文来源:https://www.bwwdw.com/article/smor.html

Top