logistic回归模型讲稿

更新时间:2024-04-11 00:41:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Logistic回归分析模型

2016-10-24

1各位老师,同学们大家上午好:非常感谢大家抽出宝贵的时间来

参加沙龙,感谢我的导师对沙龙内容及PPT制作过程中的悉心指导,今天和大家一起分享的是在课题中用到的一种统计学分析方法,Logistic回归分析。

2这是CNKI学术搜索给出的近年来Logistic回归分析方法的学术关注度,由此可见,Logistic回归分析方法在当前学术研究中应用比较广泛、流行,关注度比较高,是进行科研数据分析不可缺少的利器。 3下面我将分以下几个部分对回归模型做详细的介绍: 1.Logistic回归的基本概念与原理;2.Logistic回归的应用范畴;3.Logistic回归的类型及实例分析;这是本次沙龙的重点部分。4.应用Logistic回归的注意事项;5.小结与答疑。

4首先来了解一下Logistic回归模型的基本概念与原理:Logistic 回归又称「Logistic 回归分析」,是一种「概率型非线性回归」,主要用于危险因素分析以及预后评估等方面,是目前流行病学和医学中最常用的分析方法之一。近年来已逐渐成为发表高质量 SCI 论文必不可少的重要统计学分析利器。 Logistic 回归本质上是一种用于研究二分类(或多分类)结局(y,因变量)与有关影响因素(x,自变量)之间关系的多因素分析方法。

5用比较通俗的话来解释它的基本原理,也就是说:用一组观察数据拟合Logistic模型,然后揭示若干个自变量x与一个因变量y之

间的关系,结果反应了y 对x的依存关系。统计学的东西比较抽象,下面通过两张图再来重复解说一下。

6(1)与某一事件或某一疾病的结局有关的,存在很多可疑的影响因素,在这些可疑因素中包括促使结局发生的有关的一些危险因素、也包括抑制结局发生的有关的一些保护因素。那么这些因素到底哪些是危险因素,哪些是保护因素呢?它们的危险及保护的程度大概有多少呢?

7通过Logistic回归分析我们就可以看到详细的结果。

8下面来看一下Logistic回归的应用范畴;Logistic回归的应用范畴很广泛,其中最主要的应用是筛选对事件结局的影响因素及预测某一事件是否发生、发生概率的大小。

9主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,也即影响因素分析。包括仅考察某单一因素是否为影响某一事件发生与否的因素,也就是后面要详细介绍的单因素Logistic回归分析,还包括从多个可疑影响因素中筛选出具有显著影响的因素变量,就是后面要详细介绍的多因素Logistic回归分析。这里不敷衍了。

10Logistic回归分析的第二个主要应用范畴是进行某事件结局发生的概率进行预测,在已经建立得logistic回归模型后,我们可以根据模型,预测在不同的自变量情况下,发生某病或某种事件结局的概率有多大。预测的目的:根据研究对象的一些检查指标,判断某种事件结局的概率有多大,进而决定下一步研究方案的制定。

11下面通过一个实例来一起了解一下具体的预测过程:案例:用Logistic回归模型分析某市人群患甲状腺结节的影响因素。通过调查研究发现疾病的相关影响因素有:性别、年龄、职业、是否吸烟、种族等。我们要进行预测的问题是:在自变量为男性、汉族、医务工作者情况下患甲状腺结节的风险概率是多少?通过预测,我们要制定下一步的科研、治疗方案。具体看一下SPSS软件操作步骤。

12首先,将收集的课题数据资料整理后,导入SPSS分析软件中。 13第二步打开SPSS的数据视图,点击分析-回归-二元Logistic后。 14出现Logistic回归界面,分组拉入因变量框内,性别、民族等拉入自变量框内,这是点开右上方的“保存”的对话框,选中预测值“概率”,点击“继续”、“确定”。

15 我们再回到数据视图,发现多了一个变量PRE_1,这就是我们心心念的概率(风险)。这时候我们只需要在数据视图录入新数据,比如右图底行:男性、医务者、种族的自变量代码。

16我们重新运行下分析—回归—二元Logistic回归等步骤,又有了新的变化。

17数据视图多了一个变量PRE_2。PRE_2相比PRE_1多了一个数据36.78%。这时候,我们可以告诉大家对于男性、汉族、医务工作者人群患甲状腺结节的风险是36.78%。

18本案例预测概率的意义:1.通过对某些自变量情况下结局的预测,决定对此类人群是否进行深入调查研究;2.对预测概率较高的某类人群,可以适当进行干预。

19下面一起来看一下Logistic回归的类型及实例分析,这也是本次沙龙的重点部分。首先来看一下Logistic回归有哪些类型。Logistic 回归的类型有多种,按照不同的实验设计适用范围分为条件Logistic回归模型和非条件Logistic回归模型,其中,条件Logistic回归模型主要用于配对/配比资料研究的数据分析,非条件Logistic回归模型用于成组病例对照研究,病因学研究及队列研究资料的数据分析。下面就条件Logistic回归模型与非条件Logistic回归模型,我们具体详细的一同学习一下。

20首先来看非条件Logistic回归分析应用实例,案例:探讨甲状腺结节发生的有关危险因素,研究对象为:200例甲状腺结节患者和200例对照者;研究方法:成组病例对照研究;调查记录了与疾病发生可能相关的影响因素,如:年龄、性别、职业、居住地、医疗保险、职业及家庭年收入等;统计学分析方法:Logistic回归分析;研究的目的为:筛选甲状腺结节发生的危险因素,并分析各自变量作用的大小。也就是对疾病发生的影响程度。

21首先是对变量进行赋值,变量包括因变量和自变量。因变量,顾名思义就是因别人的变化而变化的量,比如研究甲状腺结节患病的影响因素,这里的患病情况就是因变量。3、自变量(影响因素),通俗地说就是不因别人变化而自己变化的量,比如本例中甲状腺结节患病的影响因素就是自变量,如病人的年龄,性别,职业、居住地、医疗保险、职业及家庭年收入等等。

22对问卷中的变量完成赋值后,第2步,将整理好的数据输入SPSS统计软件中,下面开始进行软件操作。

23这是具体的SPSS实施操作的步骤:单因素Logistic回归分析-筛选有意义的自变量-多因Logistic回归分析-结果解读。

24首先进行单因素Logistic回归分析,具体步骤为点击:分析-回归-二元Logistic,

25出现Logistic回归界面,分组拉入因变量框内(分组是指病例组和对照组,也就是二分类因变量Y值取值为患病和不患病),性别、民族等作为自变量拉入自变量框内。每次只对一个自变量进行分析。点击确定。

26这是单因素Logistic回归分析的结果,我们主要看它的P值,当P值<0.05时,说明进行分析的自变量有统计学意义,是疾病发生的可疑因素。但是存在混杂因素的影响,还不能确定它到底是不是疾病发生的危险因素,因此,需要进一步进行多因素Logistic回归分析。

还有一点需要指出的是:一般情况下,都是选择那些单因素分析中与因变量有关的自变量进入回归方程,进行多因素Logistic回归分析。但同时需要提醒,如果某些自变量从作用机制或临床经验上来看,跟因变量之间关系密切,即使单因素分析没有意义,此时也应该将其选入多因素Logistic回归方程。

27将分组拉入因变量框内;将单因素分析后筛选的所有的P值<0.05的有意义的自变量全部拉入自变量框内,点击选项按钮,勾选95%可信区间选项,点击继续,确定。

28在一系列点击菜单的操作后,我们终于看到了输出结果。首先是对Logistic回归模型的检验,经过统计学检验,模型的卡方值=18.873,P=0.000,说明Logistic回归模型有统计学意义。

29再来看不在方程中的变量这个结果的意义,本表显示在每个自变量引入模型之前,检验这些自变量与因变量之间有无联系,由sig的值可知,家庭年收入、食用碘盐(B5)与因变量的联系有统计学意义,其余4个没有。

30再来看方程中的变量这个结果的意义,

31本表显示多因素回归的最后结果:职业、家庭年收入、食用碘盐为患甲状腺结节的危险因素,其后sig都小于0.05;危险的程度看后面的exp回归系数,系数>1为危险因素,包含1表示无意义,<1为保护因素。在>1的前提下,系数越大越危险,所以因素危险性又重到轻依次为家庭年收入 > 职业> 食用碘盐。

32下面来看条件Logistic回归分析,条件Logistic回归分析和非条件Logistic回归分析的区别在于:条件Logistic回归分析适用于在实验设计阶段为了控制混杂因素的影响而进行的一种匹配设计方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似(比如说年龄、性别),从而形成一个匹配的对子。一个匹配的对子可以只有1个病例和1个对照,称1:1匹配;还可采用 1个病例,多个对照,此时称为1:m匹配,常用的m一般小于等于4,不同的对子,m可以不同;还可设计m:n匹配,即不同对子的病例与对照个数均

可不同,这样的设计增加了收集资料的灵活性。对于这类匹配设计资料,如果采用以上介绍的非条件logistic回归方法,将会降低检验效能。而应当采用条件logistic回归模型进行分析。

33 案例: 探讨甲状腺结节发生的有关危险因素,对200例甲状腺结节患者和200例对照者按性别、年龄进行配比病例对照研究,调查记录了与疾病发生可能相关的影响因素,试用条件Logistic回归分析方法筛选危险因素,并分析各自变量作用的大小。

34 第一步。变量赋值; 35第二步,数据录入

36第三步,求出同一对中的病例和对照所有自变量的差值,然后利用该差值直接拟合不含常数项的传统logistic模型。

这里说明一下:d_x1即为病例组自变量x1与对照组自变量x1的差值,以此类推。比如,病例组某自变量(BMI)为29,对照组BMI为20,那我们的d_x即为9。

d_y为病例组因变量y与对照组因变量y的差值,按我们常规的赋值(病例组=1,非病例组=0),这里d_y就是一个常数1,这时候传统的二分类logistic回归会拒绝继续运算,我们只好求助于无序多分类的多项logistic回归。

37点击:执行分析—回归—多项logistic回归。出现一下界面。 38将d_y选入因变量框,d_x1、d_x2、d_x3、d_x4选入协变量框,

39点击“模型”,去除“在模型中包含截距”。点击继续,确定。

40结果解读。 首先看“模型拟合信息”的结果,p<0.001,说明拟合的模型有统计学意义,而且伪R方也比较大,说明拟合的模型也还不错。

41我们都知道logistic回归最重要的是提供了OR这个效应指标,详见“参数估计”,这里的Exp(B)即我们常说的OR。可以看到d_x2对应的OR为1.311(这里x2为二分类变量),可以解释为有x2的患结节的风险是无x2的1.311倍。

42上述方法只能用于1:1配对,下面对于1:n配对的情况,我们一起学习一下。首先来看案例。 探讨甲状腺结节发生的有关危险因素,对200例甲状腺结节患者和400例对照者按性别、年龄进行1:2配比病例对照研究,调查记录了与疾病发生可能相关的影响因素,试用条件Logistic回归分析方法筛选危险因素,并分析各自变量作用的大小。对于1:n配对的情况,则需要借助COX回归。

43我们都知道COX回归是要求有生存时间的,所以,我们也引入了时间的概念,但由于不是真正意义的生存时间,常称为虚拟时间,即表中的time。虚拟生存时间可以取任意大于0的数值,但要求对照组的生存时间长于病例组,比如,我们可规定,病例组统一为1,对照组全部为2。

其中, time为虚拟生存时间,x1和x2是我们想探究的影响因素(本例中,x1和x2均为二分类变量),y是因变量(1=正常人,

0=患者),no是配对的对子数,我们看前3行,no都是1,y分别为1、0、0,也就是说1个病人与2名对照形成了对子。

44执行分析—生存函数—COX回归。

45将time选入时间框,x1和x2选入协变量框,no选入层,y选入状态,点击定义事件(事件发生的值定为1)。点击继续、确定。

46结果解读。可以看到x1对应的Exp(B)为3.689,可解释为有x1的患某病的风险是无x1的3.689倍。而有x2的患某病的风险是无x2的0.67倍,显然x1是一个危险因素,x2是一个保护因素。

47下面一起来看一下运用Logistic回归过程中的注意事项:主要包括1用Logistic回归分析估计危险度的情况、2样本量方面的情况、3 Logistic回归中的自变量形式、4Logistic回归时单因素分析。 48.Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很大程度上方便了结果的解读与推广。如表所示:家庭低收入者发生疾病的风险是高收入者的1.328倍。这里要注意估计的方向问题,以家庭高收入者作为参照,家庭低收入者患疾病的OR是1.328。如果以家庭高收入者作为参照,算出的OR将会是0.7530(1/1.328),表示家庭高收入者发生疾病的风险是低收入者的0.7530倍,或者说,是低收入者的75.30%。撇开了参照组,相对危险度就没有意义了。

49.通常回归模型都需要建立在大样本的基础上。在进行Logistic回归前,应该考虑当前的样本量是否充足? 根据模拟研究,在使用Logistic回归时,1.样本量不能太少,通常病例和对照的人数应该至少

达到30~50人,另外也可根据经验公式:因变量中较少的那一类的人数>=自变量个数×10,来计算求得合适的样本量。

另外一点是:二分类logistic回归不论自变量还是因变量,一般都用0表示阴性或不严重的情况,而用1表示阳性或严重的情况,这样or值就可以解释为or>1(危险因素),or=1(无关系),or<1(保护因素)。

50.自变量的形式问题,Logistic回归的自变量既可以是连续变量,也可为分类变量。总体原则是尽量从实际或专业角度考虑采取何种形式更好。比如年龄,可以取为连续变量,也可以5岁、10岁作为一组,甚至分为老年人和年轻人两组。不同的划分方式决定了结果解读时的差异,比如,在做出胃癌与年龄的关系,如果把年龄作为连续变量分析,得到危险度为1.008,其解释为年龄每增加1岁,患胃癌的风险就会多出0.008倍,这个数据会显得没有太大的临床意义。但如果以10岁一组,可能得到的危险度就是1.6,即年龄每增长10岁、患胃癌的风险就增加60%,这样幅度的相对风险更具有临床实际意义。如何将连续变量进行划分并没有固定的标准,按照统计学的分位数或具有临床意义的界值划分都是常用的方法。建议在分析时先进行趋势的描述,观察特定的自变量和因变量是何种关系,再结合临床专业角度与统计学考虑,以获得最合理的划分方式。

51.在进行Logistic回归分析时,是否必须先进行单因素分析,然后才能进行多因素分析?理论上讲,如果样本足够大,且所有的因素之间没有关联,最好把所有的因素都放到方程中,通过全模型法对所

有可能的混杂因素同时进行分析,在此基础上进一步通过逐步回归的方法对有显著意义的变量进行筛选,此种情况下可以不做单因素分析。如果样本例数有限,比如,仅有80例患者,但是有20个因素,这种情况下,最好先进行单因素分析,剔除既无统计学意义,又无 临床意义的变量,只分析有意义的变量。单因素分析时最好将P值放宽,比如0.1或0.15等,避免漏掉一些重要因素(变量间的相互作用可能导致多因素的结果不同于单因素分析)o当然,也要注意仔细检查各因素间的关联程度,对于高度相关的自变量一般不同时带入模型,例如:收缩压和舒张压。一旦发现因素之间有较强的相关性,建议首先进行筛选,选择最具代表性的变量带入模型。

52下面我们来说一下在平时写论文经常遇到的一些疑惑及小结部分。

53常听周边的同学说起,在论文写作的过程中,不知如何对统计学方法进行规范的表述,尤其是常用来探讨影响因素的多因素分析方法logistic回归,今天就这个问题,做一下简单的总结:

1.1.统计学分析中如何表述logistic回归?比如,探讨低出生体重儿的影响因素,错误:采用logistic回归进行多因素分析,正确:采用logistic回归分析低出生体重儿和产妇年龄、孕前体重、孕期吸烟史、种族之间的关系,以后退法作为自变量筛选方法,因为,统计学分析中表述logistic回归时,要报告出自变量、因变量、自变量筛选方法。

54表述logistic回归分析结果时,应该报告自变量、因变量的赋值情况,我们可以选择表格展示变量的意义和赋值。如:低出生体重儿影响因素的变量的意义及赋值:

55如何表述logistic回归分析结果?要报告OR、95%可信区间、各变量参照组。这是logistic回归最核心的结果表述。如:低出生体重儿影响因素的多因素Logistic分析结果.

56这里提一点,当自变量是分类变量时,我们可作适当的省略。 57比如,上表的吸烟与否,可以将“吸烟史:否”省略掉。同样,当自变量为有序多分类或无序多分类时,我们也可以省略掉某一参照水平。

58 下面来看一下小结部分:主要在以下6个方面进行了一下总结:1.模型: Logistic回归模型是一个概率型的回归模型。 58 2.目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。

58 3资料:1. 应变量为反映某现象发生与不发生的二值变量;2. 自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。

58 4用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。

58 5种类: 1. 成组(非条件)logistic回归方程。2. 配对(条件)logistic回归方程。

58. 应用:对队列研究资料,Logistic回归模型直接给出发病概率估计,而对病例对照研究资料则不能给出概率估计,但可提示可能存在的危险因素。配对病例对照研究资料必须应用条件Logistic回归分析。

59 以上就是有关Logistic回归分析的全部内容,有讲解的不周之处,请大家多提宝贵意见,再次感谢大家的聆听,谢谢!

本文来源:https://www.bwwdw.com/article/wcyp.html

Top