多因子共线性的主成分logistic回归分析

更新时间:2023-04-24 14:19:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

#212#

中国卫生统计2003年8月第20卷第4期

多因子共线性的主成分logistic回归分析

陈雄飞1 董晓梅2 汪 宁3 方积乾1

=提 要> 目的 采用主成分改进的条件logistic解决原发性开角型青光眼病因研究中的共线性问题。方法 采用1B3配比病例对照设计,利用多重线性回归中的共线性诊断技术进行共线性诊断,以主成分改进的条件logistic回归分析解决共线性。结果 主成分条件logistic回归能改善参数估计,显著降低标准误。结论 主成分改进的条件logistic能很好地解决原发性开角型青光眼病因研究中的共线性问题。

=关键词> 共线性 主成分 logistic回归 开角型青光眼

青光眼是四大致盲性眼病之一,原发性开角型青光眼(PrimaryOpen-AngleGlaucoma,POAG)是其一种比较常见的类型。具体该病的发病机制目前尚不清楚,近些年来,分子生物技术和分子流行病学研究方法的引入,以及自1993年被率先发现并成功克隆的TIGR基因112等有关位点的分子遗传学研究发现使得该病的研究有了很大的进展。本研究的目的在于运用匹配病例对照研究,从环境和遗传两方面入手,以主成分改进的条件logistic回归模型分析我国POAG患病的影响因素,深入探索POAG的发病原因与机制。

资料与方法

一、调查对象

POAG诊断标准(参照LamDSC研究的诊断标准)¹无继发性青光眼;º房角开放;»Goldman压平式眼压计检查(测量时间AM9B00~11B00),眼内压>21mmHg;¼特征性视盘改变:垂直性杯盘比>013或两侧眼相差\012;神经网膜变薄(无赤光眼底下,视

122

盘周围颜色发暗区域);½有典型的视野改变:旁中心暗点、弓形、环形或鼻侧视野缺损以及中心管状视野或颞侧视岛。¹、º两条必须具备,»、¼、½三条中至少需符合两条。

病例组:2000年3月~12月南京中大医院眼科按上述POAG诊断标准确定的患者38名,其中男性18例,年龄18~76岁,平均54岁;女性20例,年龄35~83岁,平均61岁。

对照组:从2000年3月~12月南京中大医院老年性白内障病人及部分骨科和胆道外科住院病人中,为每一名病例挑选同性别、同民族、年龄相差不超过5岁的对照3名。

二、调查及检测方法:

病例及对照均经专职调查员详细询问,填写统一的流行病学调查表;采用聚合酶链反应技术以七对引物扩增出TIGR基因,利用限制性内切酶技术检测基因6种已知变异在两人群中存在情况,具体见表1。

132

表1 TIGR基因限制性酶切位点的变异

密码子变异G12RP16LR76KR91XIntron2T353I

核苷酸变异34GyC47CyT227GyA271CyT730+35AyG1058CyT

扩增子1a1a1b1bIntron23a

引物1aF,1aR1aF,1aR1bF,1bR1bF,1bR2F,2R#3aF,3aR

酶Sau96ÑNheÑBsmAÑHinDÓPmlÑBsmAÑ

温度e373755373755

正常bp

238,90,58386218,92310276

207,61,124,32

296,90249,137310257,53219,57268,124,32

纯合变异

bp

杂合变异

bp

296,238,90,58386,249,137310,218,92310,257,53276,219,57268,207,124,61,32

三、统计分析方法:

调查的资料及检测结果录入Foxpro数据库,先用单因素分析,选择有意义的协变量(P<0120)进行主成分改进的logistic回归。全部分析过程利用SAS及

11中山大学公共卫生学院医学统计与流行病学系(510080)21暨南大学流行病学教研室(510632)

3()

Matlab软件完成。

11logistic回归共线性诊断:

如果协变量之间存在共线性(co-linearity)142,则会给回归估计带来很大的麻烦,严重时甚至使样本回

ChineseJournalofHealthStatistics,Aug2003,Vol.20,No.4

#213#

归系数可大可小,可正可负,其专业意义无法解释而出现悖论。本文利用SAS中多重线性回归的共线性诊断工具来进行诊断。

2.主成分改进的logistic回归:

先对所选择的p个危险因素进行基于相关矩阵R的主成分分析,r个主成分,并将主成分向量记为:C=

C1C2

,C1为保留的r行,C2为余下

A1

,

素)及个别参数估计值的标准误过大等现象。根据以上发现结合因素间相关分析的结果(糖尿病和血糖值间中度相关r=01664,眼局部血流灌注压和眼压间呈

高度相关r=01730),认为变量间存在共线性问题。

表2 1B3匹配单变量V2分析结果

变量家族史糖尿病血糖高血压收缩压舒张压眼灌注压*

自由度1111111111111

*

回归系数标准误

B^11003016580112511178-01008-01005-01089011731128116108511006-01064-0128801000-0152201000

Std^B0143701433010640147801009010170102101040016061796016060107711118

)01427

)

WaldV25127321309318626106601739010841712221815714147501000217610169401066

)11494

)0100051327

P值010220112901049010140139001772010000100001034

OR值217271193011133312490199201995019151118931600

的p-r行,将对应的特征向量阵A分割为:A=

A2

A1为r行,A2为p-r行。利用主成分C1进行-

tic回归分析时,得到回归系数及其协方差阵的估计值BC1,cov(^^Bc1),相当于将^BC从第r+1到第p个主成分的系数强行规定为0,有^BC=cov(^BC1) 0 0 0

^BC10

,cov(^BC)=

眼压心血管疾病放射暴露史吸烟指数饮酒指数G12RP16L*R76KR91X*

*

,^BA近似服从N(Bc,cov(Bc))。主成分

019939674186010970140501797

)01222

)0199201021

217350193801750

)01593

)0100051200

C=A@X*,X*=

Xi-X i

,A为正交矩阵,所以X*=Si

*

A.@C,^B.^BC,^BX*服从N(A.,Bc,A.cov(BC)X=AA),即^BX*=Ac1^BC1,服从N(Ac1,Bc1,A.1cov(BC1)A.1)。实用时利用前r个主成分进行logistic回归,可

01011

*得到^BC1,及cov(^BBcov(^BX*),可进C1),进而得到^X、

行U检验选出合适的变量。然后再除以各自的标准差,可得到原变量的参数估计值。本法为有偏估计。

结果与分析

111B3匹配研究的单变量分析结果:

经V分析与因变量存在联系(P<0120)的变量有:青光眼家族史、糖尿病、血糖值、高血压、眼局部血流灌注压、眼压、心血管疾病、吸烟和T353I突变。具体分析结果见表2。

21条件logistic回归分析结果

将单变量分析筛选出的9个因素作普通的条件logistic回归分析,结果家族史、高血压和眼局部血流灌注压进入模型,拟合方程为Logit(p)=31737X1+31494X4-01197X5。

31logistic回归共线性诊断结果:

共线性诊断结果显示条件数最大为31349,离公认的30尚有差距;但是方差膨胀因子最大的为21887,已非常接近3,见表4和表5。考察条件logistic回归分析结果发现存在回归系数估计值不稳定(如家族史和高血压的系数明显高于单因素分析时结果)、重要的变量不能进入(如眼压)、有的变量回归系数的正负存在明显错误(如糖尿病和T353I成为保护性因

2

INTRON2T353I

-14197514581000

1164901714

注:*眼局部血流灌注压={2/3[舒张压+1/3(收缩压-舒张压)]

-眼内压}152

**P16L、R91X两种变异在本研究人群皆未检测到。

表3 条件Logistic回归分析结果

变量家族史(X1)糖尿病(X2)血糖(X3)高血压(X4)眼灌注压(X5)眼压(X6)

心血管疾病(X7)

回归系数

自由度

B^

标准误Std^B

WaldV2812230190031354417726133931281116980127701295

P值010040134301067010290101201070011930159901587

OR值41195801328116253219150182211133310942128801358

111111111

31737-111150148531494-01196011251112901827-11027

113031117501265115990107801069018671157211890

吸烟指数(X8)T353I(X9)

4.主成分分析结果:

根据主成分分析结果,6个主成分的累积方差达到了85%以上,第6个主成分的特征根为0182,认为

应该选取6个主成分。但这只是经验判断而无理论证明,为了进一步验证,分别采用了6、7、8个主成分分别进行logistic回归。

#214#

表4 共线性诊断

编号123456789

特征根211181175511196110130191501830016570132801189

条件指数110001110011331114461152211597117952154231349

家族史010150100101096012910138401186010210100501001

糖尿病010310108401005010000100001090010070178301000

血糖010320108401008010000100001027010010183601012

高血压010110104001152010010107401394010510101201263

方差分解比例眼灌注压010320104601014010080100201004010350100001859

中国卫生统计2003年8月第20卷第4期

眼压010510101701000010110100901008010280100001877

心血管疾病010100100101092013430149501005010410100101012

吸烟指数010000101301309011570104101223012290102401005

T353I010650101101037010880100801002017740100101013

表5 方差膨胀因子

variable截距家族史糖尿病血糖高血压

VIF011038118001190511315

variable眼灌注压眼压心血管疾病吸烟指数T353I

VIF2175021887110351107211233

成分的logistic回归模型较为合理(表6、表7)。

表6 主成分分析结果

主成分PRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7PRIN8

PRIN9

特征根211171175511196110130191501830016570132801189

差异0136201559011830109901085011730132901139)

比例012350119501133011130110201092010730103601021

累积比例012350143001563016760177701870019430197911000

logistic回归的结果表明:选用6个主成分比较合适,此时累积方差已达到了85%以上,而再增加主成分时,发现T353I及吸烟指数系数的符号发生改变,而且标准误明显增大,同时结合专业知识,认为6个主

标准化回归系数(^B*)

主成分个数家族史糖尿病血糖高血压眼灌注压眼压心血管疾病吸烟指数T353I

601908012250127001505-111371141401298-0135801561

701898013360128701613-11214114520126001262-01054

811051-013841122101744-11382117140127401449-01416

6012990116301137013170134901419012260130201213

表7 选用不同个数的主成分进行条件logistic回归结果

标准误(Std^B*)

7013200118101138013380136701423012390142801392

8013580145501738013650141001488012270148501444

631041113751196511592-312553137911321-1118521630

U值721808118552108411812-31314314361108701613-01138

821936-018431165421039-31367315111120801927-01937

5.主成分改进的logistic回归分析结果:

该模型有5个因素进入,分别为:家族史、血糖、眼灌注压、眼压、T353I(表8)。拟合方程为:Logit(p)=01908家族史+01270血糖-11137眼灌注压+11414

眼压+01561T353I。

表8 主成分改进后的条件Logistic回归

标准化回归系原变量回归

数标准变量回归标准差U值系数

系数(^B)误StdStd(X)(^B)

*家族史01908012990135431041**21564糖尿病0122501163013861137501582血糖01270011372187911965*01094高血压0150501317013741159211349眼灌注压-1113701349131021-31255**-01087眼压11414014198196631379**01705心血管疾病0129801226012671132111120吸烟指数-013580130201324-11185-11106

**

T353I0156101213012432163021308

*:P<0105;**:P<0101

讨 论

目前处理共线性问题用得较多的是以逐步logis-tic回归筛选变量来建立最佳回归方程,使得变量间尽量避免存在共线性,但结果可能造成一些对疾病有影

响的变量会被排除在模型之外。没入选的变量并不说

OR值

明其对因变量的作用一定无统计学意义,可能与其有共线性的变量掩盖了它的作用,如此则不能充分利用所调查数据,全面地反映真实情况。采用经过主成分变换的logistic回归方法,通过主成分变换消除了解释变量观察矩阵之间的共线关系,从而使回归得到较为可靠的结论。

家族史是POAG首要的危险因素之一,有青光眼家族史者患本病的危险性是无青光眼家族史者的

12198811790110983185501916111713106401331101050

ChineseJournalofHealthStatistics,Aug2003,Vol.20,No.4

#215#

LogisticRegressionBasedonPrincipalComponentAnalysisinResolvingtheCo-linearity ChenXiongfei,DongXiaomei,WangNingetal.,DepartmentofEpidemiology,MedicalCol-legeofJinanUniversity,Guangzhou510632,China

=Abstract> Objective Adoptinglogisticregressionmodelbased

onprincipalcomponentanalysistoresolvetheco-linearityintheexploringoftheriskfactorsofPOAG.Methods Using1B3matchedcase-controlstudy,makingtheco-linearitydiagnosisbyrelatedmethodsandemployingLogisticregressionbasedonprincipalcomponentanalysistoresolvetheproblem.Results Logisticregressionmodelbasedonprincipalcomponentanalysiscanimprovetheestimatingofparametersanddecreasethestandarderrorssignificantly.Conclusion Logisticregressionmodelbasedonprin-cipalcomponentanalysiscanresolvetheco-linearityintheexploringoftheriskfactorsofPOAG.

121988倍。青光眼具有遗传倾向的观点已被广泛认同。多数研究者认为它是一种多因子遗传病,研究发现位于GLC1A位点上的TIGR基因的一些突变与许

多POAG家系密切相关。

模型中引入T353I变量,表明T353I突变与POAG间存在关联。T353I是发生在TIGR基因第三个外显子上的一种错义突变,第353号密码子由原来的苏氨酸变成异亮氨酸。T353I突变发生在TIGR基因第三个外显子的嗅素同源区内,这也是国外报道突变多聚积的区域。

眼压是POAG的危险因素。眼压每升高1mmHg,患青光眼的相对危险度增加17%,眼压越高,患POAG的危险性越大。Rosenberg162认为,高眼压是进展性视神经损害发生最一致的危险因素。在青光眼协作研究172中,眼压是青光眼视野缺损最有预测性的因素之一。

眼局部血流灌注压是POAG的一个保护性因素,平均每升高1mmHg,患青光眼的相对危险度降低8136%。Baltimore青光眼研究发现灌注压最低组(<30mmHg)发生POAG的危险性是最高组(50mmHg以上)的6122倍。

拟合发现血糖值与POAG间存在关联,血糖值每升高1mmol,患POAG的危险度增加9183%。因糖尿病导致的小血管改变将影响眼局部的血流灌注,使得POAG患者在较低的眼压情况下更容易发生视野缺损。

复习文献发现,关于POAG危险因素的研究多是偏重环境或是遗传的单方面讨论,此次研究尝试将环境与遗传因素综合考虑,并采用经过主成分变换的lo-gistic回归模型来处理共线性问题,具有一定的科学性与实用性,符合POAG多病因疾病的理论。

182

=Keywords> Co-linearity,Principalcomponentanalysis,Logisticregression,Glaucoma,Open-angle

参 考 文 献

11SheffieldVC,StoneEM,AlwardWLetal.Geneticlinkageoffamilialopen-angleglaucomatochromosome1q21-31.NatGenet,1993,4(1):47-50.

21LamDSC,LeungYF,ChuaJKHetal.TruncationsintheTIGRinind-ividualswithandwithoutPrimaryOpen-AngleGlaucoma.InvestigativeOphthalmology&VisualScience,2000,41(6):1386-1391.

31张效房,廖树森.新编临床眼科学.河南科技出版社,1996,346-349.41方积乾等.医学统计学与电脑试验.第2版.上海:上海科技出版社,2001:389.

51陈晓明,吴振中,蒋幼芹.采用Logistic回归分析探讨发生青光眼视野缺损的危险因素.中华眼科杂志,1991,27(6):331-334.

61RosenbergLF.Glaucoma:earlydetectionandtherapyforpreventionofvisionloss.AmFamPhysician,1995,52:2289-98,2303-4.

71ArmalyMF,KruegerDE,MaunderLetal.Biostatisticalanalysisofthecollaborativeglaucomastudy.I.Summaryreportoftheriskfactorsforglaucomatousvisua-lfielddefects.ArchOphthalmol,1980,98:2163-71.81TielschM,KatzJ,SommerAetal.Hypertension,PerfusionPressure,andPrimaryOpen-angleGlaucoma.ArchOphthalmol,1995,113:216-221.

本文来源:https://www.bwwdw.com/article/lpxq.html

Top