1.1_回归分析的基本思想及其初步应用(第二课时)

更新时间:2023-08-09 22:11:01 阅读量: IT计算机 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

课前复习1、线性回归模型: y=bx+a+e,

其中a和b为模型的未知参数,e称为随机误差。

2、数据点和它在回归直线上相应位置的差异(yi i ) y 是随机误差的效应,称 ei =yi i 为残差。 y 3、对每名女大学生计算这个差异,然后分别将所得 n 的值平方后加起来,用数学符号表示为: ( y ) 2 y

i 1

i

i

称为残差平方和,它代表了随机误差的效应。

4、两个指标: (1)残差平方和

)2 ( yi yii 1

n

(2)我们可以用相关指数R2来刻画回归的效果,其 计算公式是:

R 1 2

)2 ( yi y i

n

(yi 1

i 1 n

y)2 ( yi

n

i

y)

2

(yi 1

i 1 n

i

y)

2

R2 1,说明回归方程拟合的越好;R2 0,说明回归 方程拟合的越差。

5、残差分析与残差图的定义: 在研究两个变量间的关系时,首先要根据散点图 来粗略判断它们是否线性相关,是否可以用回归模 型来拟合数据。

1, e2 , , en 来判 然后,我们可以通过残差 e

断模型拟合的效果,判断原始数据中是否存在可 疑数据,这方面的分析工作称为残差分析。 我们可以利用图形来分析残差特性,作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或 体重估计值等,这样作出的图形称为残差图。

6、一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是 预报变量。

(2)画出确定好的解析变量和预报变量的散点图,观察它们 之间的关系(如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性 关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。

(5)得出结果后分析残差图是否有异常(个别数据对应残差 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。4

例2、一只红铃虫的产卵数y和温度x有关,现收集了7 组观测数据列于下表,试建立y与x之间的回归方程. 温度x/0C 产卵数y/个 21 7 23 11 25 21 27 24 29 66 32 35

115 325

解:收集数据作散点图:350 300 250产卵数

200 150 100 50 0 0 10 20 温度 30 40

系列1

在散点图中,样本点没有分布在某个带状区域内, 因此两个变量不呈现线性相关关系,所以不能直接 利用线性回归方程来建立两个变量之间的关系. 根据已有的函数知识,可以发现样本点分布在某一条 指数函数曲线 参数. 令z=lny,则变换后样本点应该分布在直线z=bx+a (a=lnc1,b=c2)的周围.

y c1e

c2 x

的周围,其中c1和c2是待定

利用线性回归模型建立y和x之间的

非线性回归方程. 当回归方程不是形如y=bx+a时,我们称之为非线性回 归方程.6

X

21

23

25

27

29

32

35

z 1.946 2.398 3.045 3.178 4.190 4.745 5.784

z 所得线性回归方程为:

0.272 x 3.849

y c1e

c2 x

a=lnc1,b=c2

所以红铃虫的产卵数对温度的非线性回归方程为:

y

(1)

e

0.272 x 3.849

还可以拟合成什么函数模型?350 300 250产卵数

200 150 100 50 0 0 10 20 温度 30 40

系列1

若看成样本点集中在某二次曲线y=c3x2+c4的附近.作变换t=x2,建立y与t之间的线性回归方程:y=c3t+c4.8

t y

441 7350 300 250

529 11

625 21

729 24

841 66

1024 1225 115 325

产卵数

200 150 100 50 0 0 500 1000 温度的平方 1500

系列1

(2) 0.367t 202.543 y (2) 0.367 x 2 202.543 9 y y关于x的二次回归方程为:

利用残差计算公式:

y

(1)

e

0.272 x 3.849

(2) 0.367 x 2 202.543 y0.272 xi 3.849

eiX

(1)

yi yi23

(1)

yi e

, i 1,2, ,732 35

ei (2) yi yi (2) yi 0.367 xi 2 202.543, i 1,2, ,721 25 27 29

Y

7

11

21

24

66

115

325

ei(1) 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675 ei(2) 47.696 19.400 -5.832 -41.000 -40.104 -58.265 77.968

Q ei2 Q(1) 1550.538, Q(2) 15448.431. 由残差平方和: 或由条件R2分别为0.98和0.80,同样可得它们的效果.10 故指数函数模型的拟合效果比二次函数的模拟效果好.

n

i 1

给定样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn ) 两个含有未知参数(a、b为未知参数)的模型:

y

(1)

f ( x, a )

y

(2)

g( x , b)

如何比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(2) (1) f ( x, a ) y y g( x , b ) a , b 分别是参数a和b的估计值.

(2)分别计算两个回归方程的残差平方和 n n Q (1) ( y y (1) )2 Q (2) ( y y (2) ) 2

i 1

i

i

i 1

i

i

,则 y(1) (3)若 Q(1) Q(2)

反之, y

(2)

g( x, b )的拟合效果好.

f ( x, a ) 的拟合效果好;11

练习:为了研究某种细菌随时间x变化,繁殖的个数, 收集数据如下:天 数 x/ 天繁殖个数 y/个

1 6

2 12

3 25

4 49

595

6 190

(1)用天数作解释变量,繁殖个数作预报变量,作出这些 数据的散点图; 繁殖个数 (2) 描述解释变量与预报变量 之间的关系; (3) 计算残差、相关指数R2.

解:(1)散点图如右所示12 天数

(2)由散点图看出样本点分布在一条指数函数y= eC2x C1 的周围,于是令Z=lny,则x Z1 1.79

22.48

33.22

43.89

54.55

65.25

y=e0.69x 1.112 由计数器算得 Z=0.69X 1.112 则有 (3)

yyn

6.06

12.09

24.09

48.04

95.77

190.9

6

12

25n

492

95n

190

ei 2

( yi yi ) 2 3.1643, i=1 i 1

n

( yi y ) yi 2 ny 2 25553.3. i 1 i=1

3.1643 R 1 0.9999. 25553.32

即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.

本文来源:https://www.bwwdw.com/article/63nj.html

Top