1.1_回归分析的基本思想及其初步应用(第二课时)
更新时间:2023-08-09 22:11:01 阅读量: IT计算机 文档下载
课前复习1、线性回归模型: y=bx+a+e,
其中a和b为模型的未知参数,e称为随机误差。
2、数据点和它在回归直线上相应位置的差异(yi i ) y 是随机误差的效应,称 ei =yi i 为残差。 y 3、对每名女大学生计算这个差异,然后分别将所得 n 的值平方后加起来,用数学符号表示为: ( y ) 2 y
i 1
i
i
称为残差平方和,它代表了随机误差的效应。
4、两个指标: (1)残差平方和
)2 ( yi yii 1
n
(2)我们可以用相关指数R2来刻画回归的效果,其 计算公式是:
R 1 2
)2 ( yi y i
n
(yi 1
i 1 n
y)2 ( yi
n
i
y)
2
(yi 1
i 1 n
i
y)
2
R2 1,说明回归方程拟合的越好;R2 0,说明回归 方程拟合的越差。
5、残差分析与残差图的定义: 在研究两个变量间的关系时,首先要根据散点图 来粗略判断它们是否线性相关,是否可以用回归模 型来拟合数据。
1, e2 , , en 来判 然后,我们可以通过残差 e
断模型拟合的效果,判断原始数据中是否存在可 疑数据,这方面的分析工作称为残差分析。 我们可以利用图形来分析残差特性,作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或 体重估计值等,这样作出的图形称为残差图。
6、一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是 预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察它们 之间的关系(如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性 关系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。
(5)得出结果后分析残差图是否有异常(个别数据对应残差 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。4
例2、一只红铃虫的产卵数y和温度x有关,现收集了7 组观测数据列于下表,试建立y与x之间的回归方程. 温度x/0C 产卵数y/个 21 7 23 11 25 21 27 24 29 66 32 35
115 325
解:收集数据作散点图:350 300 250产卵数
200 150 100 50 0 0 10 20 温度 30 40
系列1
在散点图中,样本点没有分布在某个带状区域内, 因此两个变量不呈现线性相关关系,所以不能直接 利用线性回归方程来建立两个变量之间的关系. 根据已有的函数知识,可以发现样本点分布在某一条 指数函数曲线 参数. 令z=lny,则变换后样本点应该分布在直线z=bx+a (a=lnc1,b=c2)的周围.
y c1e
c2 x
的周围,其中c1和c2是待定
利用线性回归模型建立y和x之间的
非线性回归方程. 当回归方程不是形如y=bx+a时,我们称之为非线性回 归方程.6
X
21
23
25
27
29
32
35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
z 所得线性回归方程为:
0.272 x 3.849
y c1e
c2 x
a=lnc1,b=c2
所以红铃虫的产卵数对温度的非线性回归方程为:
y
(1)
e
0.272 x 3.849
还可以拟合成什么函数模型?350 300 250产卵数
200 150 100 50 0 0 10 20 温度 30 40
系列1
若看成样本点集中在某二次曲线y=c3x2+c4的附近.作变换t=x2,建立y与t之间的线性回归方程:y=c3t+c4.8
t y
441 7350 300 250
529 11
625 21
729 24
841 66
1024 1225 115 325
产卵数
200 150 100 50 0 0 500 1000 温度的平方 1500
系列1
(2) 0.367t 202.543 y (2) 0.367 x 2 202.543 9 y y关于x的二次回归方程为:
利用残差计算公式:
y
(1)
e
0.272 x 3.849
(2) 0.367 x 2 202.543 y0.272 xi 3.849
eiX
(1)
yi yi23
(1)
yi e
, i 1,2, ,732 35
ei (2) yi yi (2) yi 0.367 xi 2 202.543, i 1,2, ,721 25 27 29
Y
7
11
21
24
66
115
325
ei(1) 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675 ei(2) 47.696 19.400 -5.832 -41.000 -40.104 -58.265 77.968
Q ei2 Q(1) 1550.538, Q(2) 15448.431. 由残差平方和: 或由条件R2分别为0.98和0.80,同样可得它们的效果.10 故指数函数模型的拟合效果比二次函数的模拟效果好.
n
i 1
给定样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn ) 两个含有未知参数(a、b为未知参数)的模型:
y
(1)
f ( x, a )
y
(2)
g( x , b)
如何比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(2) (1) f ( x, a ) y y g( x , b ) a , b 分别是参数a和b的估计值.
(2)分别计算两个回归方程的残差平方和 n n Q (1) ( y y (1) )2 Q (2) ( y y (2) ) 2
i 1
i
i
i 1
i
i
,则 y(1) (3)若 Q(1) Q(2)
反之, y
(2)
g( x, b )的拟合效果好.
f ( x, a ) 的拟合效果好;11
练习:为了研究某种细菌随时间x变化,繁殖的个数, 收集数据如下:天 数 x/ 天繁殖个数 y/个
1 6
2 12
3 25
4 49
595
6 190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些 数据的散点图; 繁殖个数 (2) 描述解释变量与预报变量 之间的关系; (3) 计算残差、相关指数R2.
解:(1)散点图如右所示12 天数
(2)由散点图看出样本点分布在一条指数函数y= eC2x C1 的周围,于是令Z=lny,则x Z1 1.79
22.48
33.22
43.89
54.55
65.25
y=e0.69x 1.112 由计数器算得 Z=0.69X 1.112 则有 (3)
yyn
6.06
12.09
24.09
48.04
95.77
190.9
6
12
25n
492
95n
190
ei 2
( yi yi ) 2 3.1643, i=1 i 1
n
( yi y ) yi 2 ny 2 25553.3. i 1 i=1
3.1643 R 1 0.9999. 25553.32
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
正在阅读:
1.1_回归分析的基本思想及其初步应用(第二课时)08-09
空调冷量计算方法04-27
供应商资质信息收集表 填写说明11-14
生物药剂学与药代动力学简答题04-09
中石油18年8月《石油钻采设备及工艺》第一次在线作业11-14
环评复习资料04-27
一下行规评分表01-24
2011.6统计学习题集10-28
《语文活动2》教学设计05-19
- 供应商绩效评价考核程序
- 美国加州水资源开发管理历史与现状的启示
- 供应商主数据最终用户培训教材
- 交通安全科普体验教室施工方案
- 井架安装顺序
- 会员积分制度
- 互联网对美容连锁企业的推动作用
- 互联网发展先驱聚首香港
- 公司文档管理规则
- 机电一体化系统设计基础作业、、、参考答案
- 如何选择BI可视化工具
- 互联网产品经理必备文档技巧
- 居家装修风水的布置_家庭风水布局详解
- 全省基础教育信息化应用与发展情况调查问卷
- 中国石油--计算机网络应用基础第三阶段在线作业
- 【知识管理专题系列之五十八】知识管理中如何实现“场景化协同”
- 网络推广方案
- 中国石油--计算机网络应用基础第二阶段在线作业
- 汽车检测与维修技术专业人才培养方案
- 详解胎儿颈透明层
- 课时
- 初步
- 回归
- 及其
- 思想
- 基本
- 应用
- 分析
- 1.1
- 消毒液的配制方法
- 《射线检测教学大纲》
- 中国优秀园林设计集三
- SQL Server中删除重复数据的几个方法
- 打造初中数学高效课堂
- 空压机作业指导书
- 市政道路工程分部分项工程的划分及用表目录
- 热门-《教诲》阅读答案
- 《资本运营与金融战略》测试答案
- 教学媒体选择分析表
- 1.4等可能概型
- 压强训练题
- 推行土地信用合作社创新农村经营机制
- 论马克思主义中国化模式论的基本问题
- 长沙旅游资源开发策略探讨
- The Success of Advanced Learning Technologies for Instruction Research and Evaluation of Hu
- 博爱之心 师德之魂
- 食用菌行业现状及发展趋势分析
- 人教版二年级下册语文园地三 测试题
- 公司类客户(大型)信用等级评定管理办法