概率论与数理统计第十章 回归分析 -

更新时间:2023-09-28 14:41:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第十章 回归分析

回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的一种数学方法.

第一节 回归分析的概述

在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U与电阻R、电流I之间的关系为U=IR,如果已知这三个变量中的任意两个,则另一个就可精确地求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,其表现形式也具有某种程度的不确定性.

具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题.

(1)从一组观察数据出发,确定这些变量之间的回归方程. (2)对回归方程进行假设检验. (3) 利用回归方程进行预测和控制.

回归方程最简单的也是最完善的一种情况,就是线性回归方程.许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如Matlab,SAS等都有非常有效的线性回归方面的计算程序,使用者只要把数据按程序要求输入到计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便.

我们先考虑两个变量的情形.设随机变量y与x之间存在着某种相关关系.这里x是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值x1,x2,…,xn,故可将它看成普通变量,称为自变量,而产量y是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况.

由x可以在一定程度上决定y,但由x的值不能准确地确定y的值.为了研究它们的这种关系,我们对(x,y)进行一系列观测,得到一个容量为n的样本(x取一组不完全相同的值):(x1,y1),(x2,y2),…,(xn,yn),其中yi是x=xi处对随机变量y观察的结果.每对(xi,yi)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图.如图10-1.

图10-1

由图10-1a可看出散点大致地围绕一条直线散布,而图10-1b中的散点大致围绕一条抛物线散布,这就是变量间统计规律性的一种表现.

如果图中的点像图10-1a中那样呈直线状,则表明y与x之间有线性相关关系,我们可建立数学模型

y=a+bx+ε (10.1)

来描述它们之间的关系.因为x不能严格地确定y,故带有一误差项ε,假设ε~N(0,σ2),相当于对y作这样的正态假设,对于x的每一个值有y~N(a+bx,σ2),其中未知数a,b,σ2不依赖于x,(10.1)式称为一元线性回归模型(Univariable linear regression model).

在(10.1)式中,a,b,σ2是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的x,方程

? (10.2) ??a??bxy称为y关于x的线性回归方程或回归方程,其图形称为回归直线.(10.2)式是否真正描述了变

量y与x客观存在的关系,还需进一步检验.

实际问题中,随机变量y有时与多个普通变量x1,x2,…,xp(p>1)有关,可类似地建立数学模型

y=b0+b1x1+…+bpxp+ε, ε~N(0,σ2), (10.3)

其中b0,b1,…,bp,σ2都是与x1,x2,…,xp无关的未知参数.(10.3)式称为多元线性回归模型,和前面一个自变量的情形一样,进行n次独立观测,得样本:

(x11,x12,…,x1p,y1),…,(xn1,xn2,…,xnp,yn)

有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为0,1,…,p,得多元线性回归方程

??b?x??=by011

?x ?bpp(10.4)

同理,(10.4)式是否真正描述了变量y与x1,x2,…,xp客观存在的关系,还需进一步检验.

第二节 参数估计

1.一元线性回归

最小二乘法是估计未知参数的一种重要方法,现用它来求一元线性回归模型(10.1)式中a和b的估计.

最小二乘法的基本思想是:对一组观察值(x1,y1),(x2,y2),…,(xn,yn),使误差εi=yi-(a+bxi)的平方和

Q(a, b) =

??i????yi??a?bxi??? (10.5)

2i?1i?1nn2达到最小的a和b作为a和b的估计,称其为最小二乘估计(Least squares estimates).直观地说,平面上直线很多,选取哪一条最佳呢?很自然的一个想法是,当点(xi,yi),i=1,2,…,n,

与某条直线的偏差平方和比它们与任何其他直线的偏差平方和都要小时,这条直线便能最佳地反映这些点的分布状况,并且可以证明,在某些假设下,和是所有线性无偏估计中最好的. 根据微分学的极值原理,可将Q(a,b)分别对a,b求偏导数,并令它们等于零,得到方程组:

n??Q??a??2??yi?a?bxi??0,?i?1 (10.6) ?n??Q??2?y?a?bx?x?0.?iii?i?1??b即

n??n??na???xi?b??yi,i?1??i?1? (10.7) ?nnn??x?a??x2?b?xy.?ii??i???i??i?1?i?1???i?1? (10.7)式称为正规方程组.

由于xi不全相同,正规方程组的参数行列式

nni?xi?1nii?1ni?x?xi?12n?n?2?n?xi???xi??n?(xi?x)2≠0.

i?1i?1?i?1?n2故(10.7)式有惟一解

n?(xi?x)(yi?y)???i?1?,?b?n (10.8) ?(xi?x)2??i?1??.??y??bx??a于是,所求的线性回归方程为

?. (10.9) ??a??bxy?代入上式,则线性回归方程亦可表为 ??y??bx若将a?(x?x). (10.10) ??y?by (10.10)式表明,对于样本观察值(x1,y1),(x2,y2),…,(xn,yn),回归直线通过散点图的几何中心

?的直线. (x,y).回归直线是一条过点(x,y),斜率为b上述确定回归直线所依据的原则是使所有观测数据的偏差平方和达到最小值.按照这个原理确定回归直线的方法称为最小二乘法.“二乘”是指Q是二乘方(平方)的和.如果y是正态变量,也可用极大似然估计法得出相同的结果.

为了计算上的方便,引入下述记号:

2nnn?1??22?Sxx??(xi?x)??xi???xi?,n?i?1?i?1i?1?2?nn1?n??22 (10.11) ?Syy??(yi?y)??yi???yi?,n?i?1?i?1i?1?nn?1?n??n??Sxy??(xi?x)(yi?y)??xiyi???xi???yi?.n?i?1??i?1??i?1i?1?这样,a,b的估计可写成:

??Sxy,?b?Sxx??1n?1n?a???yi???xi?ni?1?ni?1????b.? (10.12)

例10.1 某企业生产一种毛毯,1~10月份的产量x与生产费用支出y的统计资料如表10-1.求y关于x的线性回归方程.

表10-1 月份 x(千条) y(万元) 1 12.0 11.6 2 8.0 8.5 3 11.5 11.4 4 13.0 12.2 5 15.0 13.0 6 14.0 13.2 7 8.5 8.9 8 10.5 10.5 9 11.5 11.3 10 13.3 12.0 解 为求线性回归方程,将有关计算结果列表如表10-2所示 表10-2

产量x 12.0 8.0 11.5 13.0 15.0 14.0 8.5 10.5 11.5 13.3 ∑ 117.3 费用支出y 11.6 8.5 11.4 12.2 13.0 13.2 8.9 10.5 11.3 12.0 112.6 x2 114 64 132.25 169 225 196 72.25 110.25 132.25 176.89 1421.89 xy 139.2 68 131.1 158.6 195 184.8 75.65 110.25 129.95 159.6 1352.15 y2 134.56 72.25 129.96 148.84 169 174.24 79.21 110.25 127.69 144 1290 1 (117.3)2=45.961, 101Sxy=1352.15-×117.3×112.6=31.352,

10Sxx=1421.89-

Sxy112.6117.3??= b= =0.6821, a-0.6821×=3.2585,

1010Sxx?=3.2585+0.6821x. 故回归方程:y2.多元线性回归

多元线性回归(Multiple linear regression)分析原理与一元线性回归分析相同,但在计算上要复杂些.

若(x11,x12,…,x1p,y1),…,(xn1,xn2,…,xnp,yn)为一样本,根据最小二乘法原理,多元线性回归中未知参数b0,b1,…,bp应满足

Q=

?(y?bii?1n0?b1xi1??bpxip)2

达到最小.

对Q分别关于b0,b1,…,bp求偏导数,并令它们等于零,得

n??Q??b??2?(yi?b0?b1xi1?i?1?0?n??Q??2?(y?b?bx?i01i1??bi?1j??bpxip)?0,

?bpxip)xij?0,j?1,2,,p.即

nnnn??b0n?b1?xi1?b2?xi2??bp?xip??yi,i?1i?1i?1i?1?nnnn?n2?b0?xi1?b1?xi1?b2?xi1xi2??bp?xi1xip??xi1yi, (10.13) ?i?1i?1i?1i?1i?1??nnnn?n2?b0?xip?b1?xi1xip?b2?xi2xip??bp?xip??xipyi.i?1i?1i?1i?1?i?1 (10.13)式称为正规方程组,引入矩阵

?1x11?1x21X=????1xn1?于是(10.13)式可写成

x12x22xn2x1p??b0??y1??????x2p?b1y, Y=?2?, B=??, ??????????b??xnp?y?n???p?X′XB=X′Y. (10.13)′

(10.13)′式为正规方程组的矩阵形式.若(X′X)-1存在,则

???b0?????b?11?B=???(X?X)XY. (10.14) ???b???p???b?x???b方程y011?x为p元线性回归方程. ?bpp例10.2 见表10-3,某一种特定的合金铸品,x和z表示合金中所含的A及B两种元素

本文来源:https://www.bwwdw.com/article/isjd.html

Top