概率论与数理统计第十章 回归分析 -
更新时间:2023-09-28 14:41:01 阅读量: 综合文库 文档下载
- 概率论与数理统计第五版推荐度:
- 相关推荐
第十章 回归分析
回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的一种数学方法.
第一节 回归分析的概述
在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U与电阻R、电流I之间的关系为U=IR,如果已知这三个变量中的任意两个,则另一个就可精确地求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,其表现形式也具有某种程度的不确定性.
具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题.
(1)从一组观察数据出发,确定这些变量之间的回归方程. (2)对回归方程进行假设检验. (3) 利用回归方程进行预测和控制.
回归方程最简单的也是最完善的一种情况,就是线性回归方程.许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如Matlab,SAS等都有非常有效的线性回归方面的计算程序,使用者只要把数据按程序要求输入到计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便.
我们先考虑两个变量的情形.设随机变量y与x之间存在着某种相关关系.这里x是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值x1,x2,…,xn,故可将它看成普通变量,称为自变量,而产量y是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况.
由x可以在一定程度上决定y,但由x的值不能准确地确定y的值.为了研究它们的这种关系,我们对(x,y)进行一系列观测,得到一个容量为n的样本(x取一组不完全相同的值):(x1,y1),(x2,y2),…,(xn,yn),其中yi是x=xi处对随机变量y观察的结果.每对(xi,yi)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图.如图10-1.
图10-1
由图10-1a可看出散点大致地围绕一条直线散布,而图10-1b中的散点大致围绕一条抛物线散布,这就是变量间统计规律性的一种表现.
如果图中的点像图10-1a中那样呈直线状,则表明y与x之间有线性相关关系,我们可建立数学模型
y=a+bx+ε (10.1)
来描述它们之间的关系.因为x不能严格地确定y,故带有一误差项ε,假设ε~N(0,σ2),相当于对y作这样的正态假设,对于x的每一个值有y~N(a+bx,σ2),其中未知数a,b,σ2不依赖于x,(10.1)式称为一元线性回归模型(Univariable linear regression model).
在(10.1)式中,a,b,σ2是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的x,方程
? (10.2) ??a??bxy称为y关于x的线性回归方程或回归方程,其图形称为回归直线.(10.2)式是否真正描述了变
量y与x客观存在的关系,还需进一步检验.
实际问题中,随机变量y有时与多个普通变量x1,x2,…,xp(p>1)有关,可类似地建立数学模型
y=b0+b1x1+…+bpxp+ε, ε~N(0,σ2), (10.3)
其中b0,b1,…,bp,σ2都是与x1,x2,…,xp无关的未知参数.(10.3)式称为多元线性回归模型,和前面一个自变量的情形一样,进行n次独立观测,得样本:
(x11,x12,…,x1p,y1),…,(xn1,xn2,…,xnp,yn)
有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为0,1,…,p,得多元线性回归方程
??b?x??=by011
?x ?bpp(10.4)
同理,(10.4)式是否真正描述了变量y与x1,x2,…,xp客观存在的关系,还需进一步检验.
第二节 参数估计
1.一元线性回归
最小二乘法是估计未知参数的一种重要方法,现用它来求一元线性回归模型(10.1)式中a和b的估计.
最小二乘法的基本思想是:对一组观察值(x1,y1),(x2,y2),…,(xn,yn),使误差εi=yi-(a+bxi)的平方和
Q(a, b) =
??i????yi??a?bxi??? (10.5)
2i?1i?1nn2达到最小的a和b作为a和b的估计,称其为最小二乘估计(Least squares estimates).直观地说,平面上直线很多,选取哪一条最佳呢?很自然的一个想法是,当点(xi,yi),i=1,2,…,n,
与某条直线的偏差平方和比它们与任何其他直线的偏差平方和都要小时,这条直线便能最佳地反映这些点的分布状况,并且可以证明,在某些假设下,和是所有线性无偏估计中最好的. 根据微分学的极值原理,可将Q(a,b)分别对a,b求偏导数,并令它们等于零,得到方程组:
n??Q??a??2??yi?a?bxi??0,?i?1 (10.6) ?n??Q??2?y?a?bx?x?0.?iii?i?1??b即
n??n??na???xi?b??yi,i?1??i?1? (10.7) ?nnn??x?a??x2?b?xy.?ii??i???i??i?1?i?1???i?1? (10.7)式称为正规方程组.
由于xi不全相同,正规方程组的参数行列式
nni?xi?1nii?1ni?x?xi?12n?n?2?n?xi???xi??n?(xi?x)2≠0.
i?1i?1?i?1?n2故(10.7)式有惟一解
n?(xi?x)(yi?y)???i?1?,?b?n (10.8) ?(xi?x)2??i?1??.??y??bx??a于是,所求的线性回归方程为
?. (10.9) ??a??bxy?代入上式,则线性回归方程亦可表为 ??y??bx若将a?(x?x). (10.10) ??y?by (10.10)式表明,对于样本观察值(x1,y1),(x2,y2),…,(xn,yn),回归直线通过散点图的几何中心
?的直线. (x,y).回归直线是一条过点(x,y),斜率为b上述确定回归直线所依据的原则是使所有观测数据的偏差平方和达到最小值.按照这个原理确定回归直线的方法称为最小二乘法.“二乘”是指Q是二乘方(平方)的和.如果y是正态变量,也可用极大似然估计法得出相同的结果.
为了计算上的方便,引入下述记号:
2nnn?1??22?Sxx??(xi?x)??xi???xi?,n?i?1?i?1i?1?2?nn1?n??22 (10.11) ?Syy??(yi?y)??yi???yi?,n?i?1?i?1i?1?nn?1?n??n??Sxy??(xi?x)(yi?y)??xiyi???xi???yi?.n?i?1??i?1??i?1i?1?这样,a,b的估计可写成:
??Sxy,?b?Sxx??1n?1n?a???yi???xi?ni?1?ni?1????b.? (10.12)
例10.1 某企业生产一种毛毯,1~10月份的产量x与生产费用支出y的统计资料如表10-1.求y关于x的线性回归方程.
表10-1 月份 x(千条) y(万元) 1 12.0 11.6 2 8.0 8.5 3 11.5 11.4 4 13.0 12.2 5 15.0 13.0 6 14.0 13.2 7 8.5 8.9 8 10.5 10.5 9 11.5 11.3 10 13.3 12.0 解 为求线性回归方程,将有关计算结果列表如表10-2所示 表10-2
产量x 12.0 8.0 11.5 13.0 15.0 14.0 8.5 10.5 11.5 13.3 ∑ 117.3 费用支出y 11.6 8.5 11.4 12.2 13.0 13.2 8.9 10.5 11.3 12.0 112.6 x2 114 64 132.25 169 225 196 72.25 110.25 132.25 176.89 1421.89 xy 139.2 68 131.1 158.6 195 184.8 75.65 110.25 129.95 159.6 1352.15 y2 134.56 72.25 129.96 148.84 169 174.24 79.21 110.25 127.69 144 1290 1 (117.3)2=45.961, 101Sxy=1352.15-×117.3×112.6=31.352,
10Sxx=1421.89-
Sxy112.6117.3??= b= =0.6821, a-0.6821×=3.2585,
1010Sxx?=3.2585+0.6821x. 故回归方程:y2.多元线性回归
多元线性回归(Multiple linear regression)分析原理与一元线性回归分析相同,但在计算上要复杂些.
若(x11,x12,…,x1p,y1),…,(xn1,xn2,…,xnp,yn)为一样本,根据最小二乘法原理,多元线性回归中未知参数b0,b1,…,bp应满足
Q=
?(y?bii?1n0?b1xi1??bpxip)2
达到最小.
对Q分别关于b0,b1,…,bp求偏导数,并令它们等于零,得
n??Q??b??2?(yi?b0?b1xi1?i?1?0?n??Q??2?(y?b?bx?i01i1??bi?1j??bpxip)?0,
?bpxip)xij?0,j?1,2,,p.即
nnnn??b0n?b1?xi1?b2?xi2??bp?xip??yi,i?1i?1i?1i?1?nnnn?n2?b0?xi1?b1?xi1?b2?xi1xi2??bp?xi1xip??xi1yi, (10.13) ?i?1i?1i?1i?1i?1??nnnn?n2?b0?xip?b1?xi1xip?b2?xi2xip??bp?xip??xipyi.i?1i?1i?1i?1?i?1 (10.13)式称为正规方程组,引入矩阵
?1x11?1x21X=????1xn1?于是(10.13)式可写成
x12x22xn2x1p??b0??y1??????x2p?b1y, Y=?2?, B=??, ??????????b??xnp?y?n???p?X′XB=X′Y. (10.13)′
(10.13)′式为正规方程组的矩阵形式.若(X′X)-1存在,则
???b0?????b?11?B=???(X?X)XY. (10.14) ???b???p???b?x???b方程y011?x为p元线性回归方程. ?bpp例10.2 见表10-3,某一种特定的合金铸品,x和z表示合金中所含的A及B两种元素
正在阅读:
概率论与数理统计第十章 回归分析 -09-28
事业单位固定资产管理体系构建研究03-19
如何开好班务会(新训)11-15
第8章习题答案11-24
石油烃裂解生产低分子烯烃原理11-23
福建省永春一中、培元、季延、石光中学四校2018届高三文综(地理部分)上学期第二次联考试题 - 图文01-01
深夜一个人心情日记11-21
红旗团委答辩最终定稿10-01
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 十章
- 数理统计
- 概率论
- 回归
- 分析
- 国际航空货物运输实务
- 保育员定复习题
- 贵州省2016年百万公众网络学习工程学习测试答案
- 强化依法治企工作 促进公司健康发展
- Unit 4 The American Dream.练习答案doc
- 工程师必须掌握的20个模拟电路
- 2019年秋季高中英语Unit4WildlifeprotectionPeriod1WarmingUp
- 工程造价工程量计算规则
- ABB变频器培训讲义
- 甲醇制氢装置操作规程
- 西华大学机械设计基础齿轮机构和齿轮传动课后答案
- 信息检索说课稿
- 命令行操作手册 - V2.1
- 电气工程基础(上)试卷A(附标答)
- 郑州轻工业学院ACM网站试题1041-1080部分解析
- 关于色彩教学的新探索
- CAD基础测试题库填空题、简答题及答案
- 苏教版四年级上册第四单元《统计表和条形统计图》
- 第五章和第七章综合测验
- 2016-2021年中草药面膜行业深度调查及发展前景研究报告