应用统计学作业

更新时间:2023-10-19 02:40:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

为研究探讨肾细胞癌转移受哪些因素的影响,本文收集了某研究人员收集的一批行根治性肾切除术患者的肾癌标本资料,并利用线性回归分析方法进行分析。

这里,被解释变量为肾细胞癌转移情况(y),解释变量为确诊时患者的年龄(X1) 、肾细胞癌血管内皮生长因子(X2)、肾细胞癌组织内微血管数(X3)、肾癌细胞核组织学分级(X4)、肾细胞癌分期(X5),结束变量筛选策略先采用强制进入策略(Enter),并作多重共线性检测,分析结果如下:

Model Summary b

Model R .826 aAdjusted R R Square .682 Square .603 Std. Error of the Estimate .306

1 a. Predictors: (Constant), 肾细胞癌分期,由低到高共4期, 确诊时患者的年龄(岁), 肾细胞癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级, 肾癌细胞核组织学分级,由低到高共4级 b. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。 上表中格列数据项的含义依次为:被解释变量和解释变量的复相关系数、判定系数R2、调整的判定系数R2、回归方程的估计标准误差。由于调整的判定系数(0.603)不是很接近于1,

因此认为拟合优度不是很高,被解释变量可以被模型解释的部分较少,为能被解释的部分较多。 ANOVA Model Sum of Squares df Mean Square F Sig.

1 Regression 4.015 5 .803 8.591 .000

Residual 1.869 20 .093

Total 5.885 25

a. Predictors: (Constant), 肾细胞癌分期,由低到高共4期, 确诊时患者的年龄(岁), 肾细胞

癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级,

肾癌细胞核组织学分级,由低到高共4级

b. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。

由上表可知,被解释变量的总离差平方和为5.885,回归平方和及均方分别为4.015和0.803,剩余平方和及均方分别为1.869和0.093,F检验统计量的观测值为8.591,对应的概率

bap近似为0.依据该表可进行回归方程显著性检验。如果显著性水平为0.05,由于概率p值小

Coefficients Standardized Unstandardized Coefficients Model 1 (Constant) 确诊时患者的年龄(岁) 肾细胞癌血管内皮生长因子(VEGF) 肾细胞癌组织内微血管数(MVC) 肾癌细胞核组织学分级 肾细胞癌分期 .202 .061 .085 .073 .444 .140 2.369 .831 .028 .416 .453 .559 2.207 1.789 -.002 .001 -.200 -1.428 .169 .812 1.232 B -.350 -.005 .258 Std. Error .235 .004 .089 Coefficients Beta t -1.492 -.168 .473 -1.227 2.894 Sig. .151 .234 .009 Collinearity Statistics Tolerance VIF a .851 .594 1.175 1.684 a. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。 于显著水平,应拒绝回归方程显著性检验的零假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可建立线性模型。

由上表可知,如果显著水平为0.05,除了肾癌细胞核组织学分级和肾细胞癌血管内皮生长因子(VEGF)以外,其他变量的回归系数显著性t检验的概率p值都大于显著水平,因此不应拒绝原假设,认为这些偏回归系数与0无显著性差异,它们与被解释变量的线性关系不显著,

Collinearity Diagnostics ModeDimensiol n 1 1 2 3 4 5 6 Eigenvalue 5.518 .161 .147 .081 .051 .041 Condition Index 1.000 5.856 6.120 8.265 10.370 11.571 肾细胞癌血管肾细胞癌组确诊时患者内皮生长因子织内微血管(Constant) 的年龄(岁) .00 .03 .04 .10 .09 .74 .00 .06 .11 .03 .02 .78 (VEGF) .00 .09 .06 .59 .25 .00 肾癌细胞核组织学肾细胞Variance Proportions a数(MVC) 分级 癌分期 .00 .28 .49 .18 .03 .01 .00 .02 .00 .01 .89 .08 .00 .22 .11 .39 .15 .12 a. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。 不应保留在方程中。由于模型保留了一些不应保留的变量,因此该模型目前不可用,赢重新建模。从容忍度和方差膨胀因子看,肾癌细胞核组织学分级与其他解释表里那个的多重共线性较严重,在重新建模时是可考虑剔除该变量。

依据上表可进行多重共线性检测。从方差比来看,第5个特征根既能解释肾癌细胞核组织学分级的89%也可以解释肾细胞癌血管内皮生长因子(VEGF)的25%,同时还解释肾细胞癌分期的15%,因此有理由认为这些变量间确实存在多重共线性;从条件指数看,第5,6个条件指数都大于10,说明变量间确实存在多重共线性。

总之,通过上述分析指导上面的回归方程存在一些不容忽视的问题,应该重建回归方程。这里我采用向后筛选策略完成观测检验并进行残差分析和强影响点探测。

Variables Entered/Removed

Model 1

Variables Entered 肾细胞癌分期期, 确诊时患者的年龄(岁), 肾细胞癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级

2

. 肾细胞癌分期期

Backward (criterion: Probability of F-to-remove >= .100).

3

. 肾细胞癌组织内微血管数(MVC)

4

. 确诊时患者的年龄(岁)

a. All requested variables entered.

b. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。

Backward (criterion: Probability of F-to-remove >= .100).

Backward (criterion: Probability of F-to-remove >= .100).

Variables Removed

. Enter

Method

b

Model Summarye Std. Error of Model 1 2 3 4 R Adjusted the .306 .303 .309 .316 R Square F .682 -.011 -.027 -.035 8.591 5 .690 1 1.738 1 2.148 1 20 20 21 22 Sig. F .000 .416 .202 .157 2.154 R Square R Square Estimate Change Change df1 df2 Change Durbin-Watson .826.682 .603 aChange Statistics .819.671 .609 b.803.644 .596 c .781.609 .575 da. Predictors: (Constant), 肾细胞癌分期期, 确诊时患者的年龄(岁), 肾细胞癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级

b. Predictors: (Constant), 确诊时患者的年龄(岁), 肾细胞癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级

c. Predictors: (Constant), 确诊时患者的年龄(岁), 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级

d. Predictors: (Constant), 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级 e. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。

由上表知,利用向后筛选策略共经过四步完成回归方程的建立,最终模型为第四个模型。从

方程的建立过程看,随着解释变量的不断减少方程的拟合优度下降了。依次剔除方程的变量是肾细胞癌分期、肾细胞癌组织内微血管数(MVC)、确诊时患者的年龄(岁)。如果显著性水平为0.05,可以看到这些被剔除的变量的偏F检验的概率p值均大于显著水平,因此不能拒绝检验的零假设,这些变量的偏回谷啊系数与零无显著差异,他们对被解释变量的线性解释没有显著贡献,不应保留在方程中。最终保留在方程中的变量是肾癌细胞核组织学分级和肾细胞癌血管内皮生长因子(VEGF)。方程的DW值为2.154,残差存在一定程度的负自相关。 ANOVA Model 1 Regression Residual Total 2 Regression Residual Total 3 Regression Residual Sum of Squares 4.015 1.869 5.885 3.951 1.934 5.885 3.791 2.094 df 5 20 25 4 21 25 3 22 Mean Square .803 .093 F 8.591 Sig. .000 ae .988 .092 10.724 .000 b 1.264 .095 13.274 .000 c Total 4 Regression Residual Total 5.885 3.586 2.299 5.885 25 2 23 25 1.793 .100 17.941 .000 d a. Predictors: (Constant), 肾细胞癌分期期, 确诊时患者的年龄(岁), 肾细胞癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级 b. Predictors: (Constant), 确诊时患者的年龄(岁), 肾细胞癌组织内微血管数(MVC) , 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级 c. Predictors: (Constant), 确诊时患者的年龄(岁), 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级 d. Predictors: (Constant), 肾细胞癌血管内皮生长因子(VEGF), 肾癌细胞核组织学分级 e. Dependent Variable: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。 上表中的第四个模型是最终的方程。如果显著水平为0.05,由于回归方程显著性检验的概率p值小于显著性水平,因此被解释变量与解释变量间的线性关系显著,建立线性模型是恰当的。

Coefficients Unstandardized Coefficients Model 1 (Constant) 确诊时患者的年龄(岁) 肾细胞癌血管内皮生长因子(VEGF) 肾细胞癌组织内微血管数(MVC) 肾癌细胞核组织学分级 肾细胞癌分期期 2 (Constant) 确诊时患者的年龄(岁) 肾细胞癌血管内皮生长因子(VEGF) 肾细胞癌组织内微血管数(MVC) 肾癌细胞核组织学分级 3 (Constant) 确诊时患者的年龄(岁) 肾细胞癌血管内皮生长因子(VEGF) 肾癌细胞核组织学分级 .200 .073 .438 2.726 .012 .233 -.398 -.006 .279 .076 .227 .004 .088 .511 3.052 -1.752 -.199 .513 -1.466 3.192 .006 .094 .157 .004 -.002 .001 -.181 -1.319 .202 .202 .061 -.323 -.006 .274 .085 .073 .231 .004 .086 .444 .140 2.369 .831 -1.399 -.184 .503 -1.375 3.179 .028 .416 .176 .184 .005 -.002 .001 -.200 -1.428 .169 B -.350 -.005 .258 Std. Error .235 .004 .089 Standardized Coefficients Beta t -1.492 -.168 .473 -1.227 2.894 Sig. .151 .234 .009 a

本文来源:https://www.bwwdw.com/article/5yof.html

Top