统计学教案习题11多元线性回归与logistic回归

更新时间:2023-09-18 15:54:01 阅读量: 幼儿教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第十一章 多元线性回归与logistic回归

一、教学大纲要求

(一)掌握内容

1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。

2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。 3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。 4.logistic回归模型结构:模型结构、发病概率比数、比数比。 5.logistic回归参数估计方法。

6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。

(二)熟悉内容 常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。 (三)了解内容 标准化偏回归系数的解释意义。

二、教学内容精要

(一) 多元线性回归分析的概念

将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归(multiple regression)

??b?bX?bX?????bX 基本形式:Y01122kk?为各自变量取某定值条件下应变量均数的估计值,X,X,…,X为自变量,k为自变量个数,b为回归方式中Y12k0程常数项,也称为截距,其意义同直线回归,b1,b2,…, bk称为偏回归系数(partial regression coefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一个单位后Y的平均改变量。

(二) 多元线性回归的分析步骤

?是与一组自变量X,X,…,X相对应的变量Y的平均估计值。 Y12k

?和实际观察值Y的残多元回归方程中的回归系数b1,b2,…, bk可用最小二乘法求得,也就是求出能使估计值Y差平方和

22?e?(Y?Y)为最小值的一组回归系数b1,b2,…, bk值。根据以上要求,用数学方法可以得出求回?i?归系数b1,b2,…, bk的下列正规方程组(normal equation):

?b1l11?b2l12???bkl1k?l1y??b1l21?b2l22???bkl2k?l2y ?

??b1lk1?b2lk2???bklkk?lky?式中lij?lji??(Xi?Xi)(Xj?Xj)??XiXj?(?Xi)(?Xj)n(?Xi)(?Y)

liy??(Xi?Xi)(Y?Y)??XiY?n常数项b0可用下式求出:

b0?Y?b1X1?b2X2???bkXk

(三)多元线性回归分析中的假设检验

在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X1,X2,…,Xk是否与

Y真有线性依存关系,也就是检验无效假设H0(?1??2??3????k?0), 备选假设H1为各?j值不全等于0

或全不等于0。

检验时常用统计量F

F?MS回归MS误差?l回归kl误差(n?k?1)

式中n为个体数,k为自变量的个数。

式中 l回归?b1l1y?b2l2y???bklky

l误差?l总?l回归

l总???Y?Y??lyy

2(四) logistic回归模型结构

设X1,X2,?,Xk为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。

Logistic回归模型为:

e?0??1X1??2X2????kXkP?1?e?0??1X1??2X2????kXk同时可以写成:

Q?11?e?0??1X1??2X2????kXk

式中?0是常数项;?j(j?1,2,?,k)是与研究因素Xj有关的参数,称为偏回归系数。

事件发生的概率P与?x之间呈曲线关系,当?x在???,??之间变化时, P或Q在(0,1)之间变化。 若有n例观察对象,第i名观察对象在自变量Xi1,Xi2,?,Xik作用下的应变量为Yi,阳性反应记为Yi=1,否则Yi=0。相应地用Pi表示其发生阳性反应的概率;用Qi表示其发生阴性反应的概率,仍然有Pi+Qi=1。Pi和Qi的计算如下:

e?0??1Xi1??2Xi2????kXikPi?1?e?0??1Xi1??2Xi2????kXik1Qi?1?e?0??1Xi1??2Xi2????kXik

这样,第i个观察对象的发病概率比数(odds)为PiQi,第l个观察对象的发病概率比数为PlQl,而这两个观察对象的发病概率比数之比值便称为比数比OR(odds ratio)。对比数比取自然对数得到关系式:

ln???PiQi?????1(Xi1?Xl1)??2(Xi2?Xl2)????k(Xik?Xlk) PQ?ll?等式左边是比数比的自然对数,等式右边的Xij?Xlj???j?1,2,?,k?是同一因素Xi的不同暴露水平Xij与Xlj之差。

自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的?j的流行病学意义是在其它自变量固定不变的情况下,

自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的ej倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位

不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。

(五)logistic回归参数估计

由于logistic回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate)求解模型中参数?j的估计值bj(j?1,2,?,k)。

?Y为在X1,X2,?,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:

Yi??应?1,第i个观察对象出现阳性反应?0,第i个观察对象出现阴性反

第i个观察对象对似然函数的贡献量为:

li?P iQi当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即

Yi1?YiL??li??PiYiQi1?Yi

i?1i?1nn式中∏为i从1到n的连乘积。

依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求解参数估计值b(六)logistic回归筛选自变量

在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratiotest)、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用,

用Λ表示似然比检验统计量,计算公式为:

j(j?1,2,?,k)。

??2lnL'L?2(lnL'?lnL)

'式中ln为自然对数的符号,L为方程中包含m(m?k)个自变量的似然函数值,L为在方程中包含原m个自变量的基

础上再加入1个新自变量Xj后的似然函数值。在无效假设H0条件下,统计量Λ服从自由度为1的?2分布。当??应加入。逆向进行即可剔除自变量。

2??(1)??时,则在?水平上拒绝无效假设,即认为Xj对回归方程的贡献具有统计学意义,应将Xj引入到回归方程中;否则,不

三、典型试题分析

(一)单项选择题

1.多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是( )。 A. 复相关系数 B. 偏相关系数 C. 偏回归系数 D. 确定系数 答案:D

[评析] 本题考点:多元线性回归中的几个概念的理解。

多元线性回归中的偏回归系数(multiple linear regression)表示在其它自变量固定不变的情况下,自变量Xj每改变一个单位时,单独引起应变量Y的平均改变量。确定系数(coefficient of determination)表示回归平方和SS回归占总离均差平方和SS总的比例,简记为R。即 R?SS回归SS总。确定系数的平方根即R称为复相关系数(multiple correlation coefficient),它表示p个自变量共同对应变量线性相关的密切程度,它不取负值, 即0≤R≤1。

2.Logistic回归分析适用于应变量为( )。

A.分类值的资料 B.连续型的计量资料 C.正态分布资料 D.一般资料

答案:A

[评析] 本题考点:logistic回归的概念。

logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。

(二)计算题

根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分析步骤及其简要结果。

表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果

22 编号 体重X1/kg 胸围X2/cm 肩宽X3/cm 肺活量Y/L 1 50.8 73.2 36.3 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.91 4 55.0 77.1 31.0 2.63 5 45.3 81.7 30.0 2.86 6 45.3 74.8 32.0 1.91 7 51.4 73.7 36.5 2.98 8 53.8 79.4 37.0 3.28 9 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案:

SPSS:数据文件:“EXAP11—2.sav”。 数据格式:4列20行。过程: Statistic

Regression Linear...

Dependent:Y

Independent(s):X1,X2,X3

Method: Enter 结果:

Variables Entered/Removed Model 1 Variables Entered Variables Removed . X3(肩宽), Method Enter X2(胸围), X1(体重) a All requested variables entered. b Dependent Variable: Y(肺活量)

Model Summary

Model 1 R .846 R Square Adjusted Std. Error of the Estimate RSquare .715 .662 .2893 a Predictors: (Constant),

X3,X2,X1

ANOVA

Sum of Squares 1 Regression 3.367 Residual 1.339 Total 4.706 a Predictors: (Constant), b Dependent Variable: Y

Model df 3 16 19 Mean F Sig. Square 1.122 13.413 .000 8.368E-02

X3,X2,X1

Coefficients

Unstandardized Standardized t Model Coefficients Coefficients B Std. Error Beta (Constant) -4.676 1.321 -3.541 .474 2.899 X3 6.036E-02 .021 3.508E-02 .015 .333 2.272 X2 5.010E-02 .029 .307 1.735 X1 Sig.

.003 .010 .037 .102 1 a Dependent Variable: Y

SAS:

数据步 过程步 DATA EXAP11—2;INPUT x1 x2 x3 y@ @; PROC REG;

CARDS; MODEL y=x1 x2 x3; 50.8 73.2 36.3 2.96?45.8 75.0 32.5 1.94; RUN;

结果:

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 3 3.36732 1.12244 13.41 0.0001 Error 16 1.33893 0.08368 Corrected Total 19 4.70626

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t| Intercept 1 -4.67553 1.32051 -3.54 0.0027 X1 1 0.06036 0.02082 2.90 0.0105 X2 1 0.03508 0.01544 2.27 0.0372 X3 1 0.05010 0.02888 1.73 0.1020

[评析] 本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。 根据SPSS或SAS的输出结果,可进行以下分析: 1. 检验H0:?1??2??3?0的方差分析表。F=13.413,P=0.0001,拒绝H0,肺活量至少与一个自变量存在线

本文来源:https://www.bwwdw.com/article/y7ah.html

Top