统计学教案习题11多元线性回归与logistic回归
更新时间:2023-09-18 15:54:01 阅读量: 幼儿教育 文档下载
- 统计学基础教案推荐度:
- 相关推荐
第十一章 多元线性回归与logistic回归
一、教学大纲要求
(一)掌握内容
1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。 3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。 4.logistic回归模型结构:模型结构、发病概率比数、比数比。 5.logistic回归参数估计方法。
6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。
(二)熟悉内容 常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。 (三)了解内容 标准化偏回归系数的解释意义。
二、教学内容精要
(一) 多元线性回归分析的概念
将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归(multiple regression)
??b?bX?bX?????bX 基本形式:Y01122kk?为各自变量取某定值条件下应变量均数的估计值,X,X,…,X为自变量,k为自变量个数,b为回归方式中Y12k0程常数项,也称为截距,其意义同直线回归,b1,b2,…, bk称为偏回归系数(partial regression coefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一个单位后Y的平均改变量。
(二) 多元线性回归的分析步骤
?是与一组自变量X,X,…,X相对应的变量Y的平均估计值。 Y12k
?和实际观察值Y的残多元回归方程中的回归系数b1,b2,…, bk可用最小二乘法求得,也就是求出能使估计值Y差平方和
22?e?(Y?Y)为最小值的一组回归系数b1,b2,…, bk值。根据以上要求,用数学方法可以得出求回?i?归系数b1,b2,…, bk的下列正规方程组(normal equation):
?b1l11?b2l12???bkl1k?l1y??b1l21?b2l22???bkl2k?l2y ?
??b1lk1?b2lk2???bklkk?lky?式中lij?lji??(Xi?Xi)(Xj?Xj)??XiXj?(?Xi)(?Xj)n(?Xi)(?Y)
liy??(Xi?Xi)(Y?Y)??XiY?n常数项b0可用下式求出:
b0?Y?b1X1?b2X2???bkXk
(三)多元线性回归分析中的假设检验
在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X1,X2,…,Xk是否与
Y真有线性依存关系,也就是检验无效假设H0(?1??2??3????k?0), 备选假设H1为各?j值不全等于0
或全不等于0。
检验时常用统计量F
F?MS回归MS误差?l回归kl误差(n?k?1)
式中n为个体数,k为自变量的个数。
式中 l回归?b1l1y?b2l2y???bklky
l误差?l总?l回归
l总???Y?Y??lyy
2(四) logistic回归模型结构
设X1,X2,?,Xk为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。
Logistic回归模型为:
e?0??1X1??2X2????kXkP?1?e?0??1X1??2X2????kXk同时可以写成:
Q?11?e?0??1X1??2X2????kXk
式中?0是常数项;?j(j?1,2,?,k)是与研究因素Xj有关的参数,称为偏回归系数。
事件发生的概率P与?x之间呈曲线关系,当?x在???,??之间变化时, P或Q在(0,1)之间变化。 若有n例观察对象,第i名观察对象在自变量Xi1,Xi2,?,Xik作用下的应变量为Yi,阳性反应记为Yi=1,否则Yi=0。相应地用Pi表示其发生阳性反应的概率;用Qi表示其发生阴性反应的概率,仍然有Pi+Qi=1。Pi和Qi的计算如下:
e?0??1Xi1??2Xi2????kXikPi?1?e?0??1Xi1??2Xi2????kXik1Qi?1?e?0??1Xi1??2Xi2????kXik
这样,第i个观察对象的发病概率比数(odds)为PiQi,第l个观察对象的发病概率比数为PlQl,而这两个观察对象的发病概率比数之比值便称为比数比OR(odds ratio)。对比数比取自然对数得到关系式:
ln???PiQi?????1(Xi1?Xl1)??2(Xi2?Xl2)????k(Xik?Xlk) PQ?ll?等式左边是比数比的自然对数,等式右边的Xij?Xlj???j?1,2,?,k?是同一因素Xi的不同暴露水平Xij与Xlj之差。
自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的?j的流行病学意义是在其它自变量固定不变的情况下,
自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的ej倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位
不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。
(五)logistic回归参数估计
由于logistic回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate)求解模型中参数?j的估计值bj(j?1,2,?,k)。
?Y为在X1,X2,?,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:
Yi??应?1,第i个观察对象出现阳性反应?0,第i个观察对象出现阴性反
第i个观察对象对似然函数的贡献量为:
li?P iQi当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即
Yi1?YiL??li??PiYiQi1?Yi
i?1i?1nn式中∏为i从1到n的连乘积。
依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求解参数估计值b(六)logistic回归筛选自变量
在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratiotest)、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用,
用Λ表示似然比检验统计量,计算公式为:
j(j?1,2,?,k)。
??2lnL'L?2(lnL'?lnL)
'式中ln为自然对数的符号,L为方程中包含m(m?k)个自变量的似然函数值,L为在方程中包含原m个自变量的基
础上再加入1个新自变量Xj后的似然函数值。在无效假设H0条件下,统计量Λ服从自由度为1的?2分布。当??应加入。逆向进行即可剔除自变量。
2??(1)??时,则在?水平上拒绝无效假设,即认为Xj对回归方程的贡献具有统计学意义,应将Xj引入到回归方程中;否则,不
三、典型试题分析
(一)单项选择题
1.多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是( )。 A. 复相关系数 B. 偏相关系数 C. 偏回归系数 D. 确定系数 答案:D
[评析] 本题考点:多元线性回归中的几个概念的理解。
多元线性回归中的偏回归系数(multiple linear regression)表示在其它自变量固定不变的情况下,自变量Xj每改变一个单位时,单独引起应变量Y的平均改变量。确定系数(coefficient of determination)表示回归平方和SS回归占总离均差平方和SS总的比例,简记为R。即 R?SS回归SS总。确定系数的平方根即R称为复相关系数(multiple correlation coefficient),它表示p个自变量共同对应变量线性相关的密切程度,它不取负值, 即0≤R≤1。
2.Logistic回归分析适用于应变量为( )。
A.分类值的资料 B.连续型的计量资料 C.正态分布资料 D.一般资料
答案:A
[评析] 本题考点:logistic回归的概念。
logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。
(二)计算题
根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分析步骤及其简要结果。
表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果
22 编号 体重X1/kg 胸围X2/cm 肩宽X3/cm 肺活量Y/L 1 50.8 73.2 36.3 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.91 4 55.0 77.1 31.0 2.63 5 45.3 81.7 30.0 2.86 6 45.3 74.8 32.0 1.91 7 51.4 73.7 36.5 2.98 8 53.8 79.4 37.0 3.28 9 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案:
SPSS:数据文件:“EXAP11—2.sav”。 数据格式:4列20行。过程: Statistic
Regression Linear...
Dependent:Y
Independent(s):X1,X2,X3
Method: Enter 结果:
Variables Entered/Removed Model 1 Variables Entered Variables Removed . X3(肩宽), Method Enter X2(胸围), X1(体重) a All requested variables entered. b Dependent Variable: Y(肺活量)
Model Summary
Model 1 R .846 R Square Adjusted Std. Error of the Estimate RSquare .715 .662 .2893 a Predictors: (Constant),
X3,X2,X1
ANOVA
Sum of Squares 1 Regression 3.367 Residual 1.339 Total 4.706 a Predictors: (Constant), b Dependent Variable: Y
Model df 3 16 19 Mean F Sig. Square 1.122 13.413 .000 8.368E-02
X3,X2,X1
Coefficients
Unstandardized Standardized t Model Coefficients Coefficients B Std. Error Beta (Constant) -4.676 1.321 -3.541 .474 2.899 X3 6.036E-02 .021 3.508E-02 .015 .333 2.272 X2 5.010E-02 .029 .307 1.735 X1 Sig.
.003 .010 .037 .102 1 a Dependent Variable: Y
SAS:
数据步 过程步 DATA EXAP11—2;INPUT x1 x2 x3 y@ @; PROC REG;
CARDS; MODEL y=x1 x2 x3; 50.8 73.2 36.3 2.96?45.8 75.0 32.5 1.94; RUN;
结果:
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 3.36732 1.12244 13.41 0.0001 Error 16 1.33893 0.08368 Corrected Total 19 4.70626
Parameter Estimates Parameter Standard
Variable DF Estimate Error t Value Pr > |t| Intercept 1 -4.67553 1.32051 -3.54 0.0027 X1 1 0.06036 0.02082 2.90 0.0105 X2 1 0.03508 0.01544 2.27 0.0372 X3 1 0.05010 0.02888 1.73 0.1020
[评析] 本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。 根据SPSS或SAS的输出结果,可进行以下分析: 1. 检验H0:?1??2??3?0的方差分析表。F=13.413,P=0.0001,拒绝H0,肺活量至少与一个自变量存在线
正在阅读:
统计学教案习题11多元线性回归与logistic回归09-18
档案室基本情况年报04-08
保险理赔前要怎么准备05-04
2014-2015新人教版六年级数学上期末考试试卷04-11
第十四章 复习与思考题12-20
常州市花园中学校本课程开发案例05-10
最新(人教部编版)四年级语文下册专项练习试卷课外积05-31
Photoshop CS2教程03-10
国际大专辩论赛.大学教育更应该注重培养科学精神还是人文精神06-11
专八100个必背词组 - 图文01-04
- 元旦晚会节目单
- 学案
- 光电显示技术期末复习资料 - 图文
- p2p与供应链结合案例
- 2016--2017学年度第二学期五年级班主任工作计划
- 尔雅2017年西藏的历史和文化期末考试满分答案解析
- 智慧树创新工程实践期末考试答案
- 六年级下美术教案-有趣的纸浮雕广西版
- 设备操作规程汇编
- 通信综合实训系统实验报告
- 南京财经大学金融学期末考试简答题
- 现代服务业发展规划研究 - 图文
- 锚杆支护工知识竞赛题
- 实验五
- 债权法习题集及详细解答
- 上海寺庙大全 - 图文
- 机会成本在企业决策中的应用研究
- 高考总复习语文选择题百题精炼第一季专题01 识记现代汉语字音(教师版)
- A9785-B中文资料
- 56m连续梁主墩冷却管布置技术交底
- 回归
- 统计学
- 线性
- 习题
- 多元
- 教案
- logistic
- 引联析结模式训练
- 钢筋混凝土结构试卷A
- 桃矿中学92届同学聚会组委会人员名单、收费标准及活动安排
- 安庆市外国语学校第三周主要工作日程表
- 叶绿素含量的测定
- 苏教版四年级下册语文第5—6单元试卷
- 2013年郑州一八小升初数学考试真题(完整)
- 2016年北师大版一年级数学上册第七单元测试卷含答案
- 《洞穴奇案》读书报告
- 《企业信息管理》综合练习题(开放本科工商管理专业适用)
- 大学计算机基础实验项目
- 人教版七年级数学下册第六章《实数》测试卷及答案
- (第19课时)圆的方程(2)
- 合同法重要知识点
- 南京林业大学学生手册考试题库
- 中国皮标牌市场发展研究及投资前景报告(目录) - 图文
- 大工16春《计算机应用基础》在线测试1
- 《形势与政策》课程论文写作要求
- 感统64项测量表(人的最基本的学习能力)
- 光学期末专项复习习题4