多元统计笔记

更新时间：2023-11-03 23:03:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

一、名词解释： 1．标准偏回归系数：

比较度量衡单位不同的自变量对因变量的贡献大小。标准偏回归系数反映的是自变量对因变量y的直接作 2．主成分分析：

从多个数值变量（指标）之间的相互关系入手，利用降维的思想，将多个变量(指标)化为几个少数互不相关的综合变量（指标）的统计方法。 3．条件数法：

根据条件数k的大小来判断变量间共线性的严重程度，k=λmax/λmin

01000，则认为存在较严重共线性（即特征根几乎等于0）.若有特征根≈0，揭示变量间存在共线性。 4．风险函数：

☆ 风险函数：表示个体在生存过程中，每个单位时间死亡的危险度。

h(t)?死于区间(t,t??t)的病人数在t时刻尚存的病人数??t5．相似系数

研究样品间的关系常用距离，研究指标间的关系常用相似系数。顾名思义，相似系数是刻划指标间相似程度的一个量，常用的有夹角余弦，相关系数等。 6．最短距离法

定义类与类之间的距离为两类间最邻近的两样品之间的距离，又称简单联接。 7．错判率

错判率是衡量判别效果的一个重要指标。这是对训练样本(已知类别)判别归类，目的是考察两类的判别效果。称组内回代。

8.优势比：设P1为暴露人群的发病比例，P0为非暴露人群的发病比例，则暴露人群的优势P1/（1- P1）与非暴露人群的优势P0/（1- P0）之比定义为暴露因素的优势比OR. 二、问答及分析题：

1．逐步回归的基本步骤和注意事项是什么？步骤（介绍逐步向前法）：

1、事先给定一个剔除变量的标准；

2、按自变量对因变量的贡献大小，由大到小依次进入方程；

3、每当一个自变量进入方程，重新对方程内的自变量进行假设检验，有统计学意义的自变量继续留在方程中，无统计学意义的自变量则被剔除；

4、如此边引入边剔除，直到既没有新的有统计学意义的自变量可引入方程内，也没有无统计学意义的自变量被剔除方程外为止。

2．多元线性回归模型的建模策略是什么？（8分）一般有以下步骤： ? ?

单因素分析：所有建模过程都应从详细的各变量的单因素分析开始。性质相同的解释变量做部分多因素分析

对性质相同的一些自变量进行部分多因素分析，并探讨自变量纳入模型时的适宜尺度，及自变量间的必要的一些变量变换。 ? ?

在单变量和部分相关解释变量分析的基础上做逐步筛选在多因素筛选模型的基础上，考虑交互作用项

在多因素筛选模型的基础上，考虑有无必要纳入变量的交互作用项。

? 对于一些在专业上有意义的变量，不管单因素是否有意义，最后都应放在模型里。

3．阐述聚类分析与判别分析的联系及区别。（5分）

聚类分析和判别分析都是分类学中的重要研究方法。两者区别在于聚类分析事先不知道研究对象的类别，通过统计手段作出分类决策；而判别分析是事先已知研究对象的类别，通过观测各类别某些指标（变量）的类间差异，判断新的未知研究对象应归属何种类别。

联系：都可以用来分类。区别：（一）基本思想不同

在聚类分析中, 所有样品或个体所属类别是未知的, 分析的依据就是原始数据, 没有任何事先的有关类别的信息可参考。而判别分析中，是已知个体所属类别，根据有关类别的信息建立判别函数，再利用该判别函数判断未知类别的个体。

在实际分析中, 当对样本的分类不清楚时, 可以先聚类分析, 然后进行判别分析。（二）分类依据不同

聚类分析依据“距离”或“相似系数”分类；判别分析依据判别函数或概率来分类。（三）数据要求不同

聚类分析并不是一种纯粹的统计技术, 其方法基本上与分布理论和显著性检验无关, 一般不从样本推断总体。

而在判别分析中, 对于分布理论非常关注, 它有一个基本假设: 每一个类别都应取自一个多元正态总体的样本, 而且所有正态总体的协方差矩阵或相关矩阵都假定是相同的 4．阐述系统聚类的步骤。（6分）

1.构造n个类，每个类包含且只包含一个样品。

2.计算n个样品两两间的距离，构成距离矩阵，记作D0。 3.合并距离最近的两类为一新类。

4.计算新类与当前各类的距离。若类的个数等于1，转到步骤(5)，否则回到步骤(3)。 5.画聚类图。

6.决定类的个数，及各类包含的样品数，并对类作出解释。 1. 2.

阐述logitic回归模型的建模策略？

判断多元线性回归方程优劣的指标有哪些？简要分析说明？

(1)决定系数（R2）：变量最多的方程最好，即使所增加的变量无统计学意义。 (2)复相关系数R：只反映密切程度，不反应方向

(3)调整决定系数（R2adj）：当有统计学意义的变量进入方程， R2adj增加；当无统计学意义的变量进入方程， R2adj反而减少。

(4)剩余标准差（sy.x1x2…xp）：一般随着自变量的增加而减少，但当增加一些无统计学意义的自变量后，剩余标准差反而增大。

(5)赤池信息准则（AIC）：日本学者提出的（越小越好） (6)Cp统计量：选择Cp最接近P（变量个数）的那个模型 3.

判断多元共线性的意义，判断多元共线性的指标有哪些？

意义：1、减少假阳性错误；2、可以得到一个综合结论；3、考虑了变量间的相互关系。总而言之，是对多个相关变量同时进行分析。

指标：1.自变量的相关系数矩阵诊断法：研究变量的两两相关分析，如果自变量间的相关系数很大，则认为存在多重共线性。

2.方差膨胀因子（the variance inflation factor，VIF)诊断法：方差膨胀因子表达式为：VIFi=1/（1-R2i)。其

中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时，表明自变量间存在多重共线性。 3.容忍值（Tolerance，简记为Tol）法：容忍值实际上是VIF的倒数，即Tol＝1/VIF。其取值在0～1之间，Tol越接近1，说明自变量间的共线性越弱；Tol越接近0，说明自变量间的共线性越强。在应用时一般先预

先指定一个Tol值，容忍值小于指定值的变量不能进入方程，计算结果具有稳定性。 4.条件数：某些维度该指标的数值大于30，则说明存在共线性 5.特征根分析法：如果相当多维度的特征根约等于0 4.

阐述聚类分析的种类及主要的判断指标及注意事项？种类：样品聚类和变量聚类

主要判断指标：距离（绝对值距离、欧氏距离、名氏距离和马氏距离）、相似系数（夹角余弦，pearson相关系数）、列联系数（点相关系数、四分相关系数、夹角余弦。Pearson列联系数等）

注意事项：当各个变量值相差悬殊时，采用上述距离反映样品间的接近程度并不合理，常要用对原始数据进行标化，然后标准化的数据计算距离。明氏距离有两个缺陷：（1）与指标的量纲有关；（2）没有考虑指标之间的相关性 5.

什么是优势比？该指标有何统计学意义？

设P1为暴露人群的发病比例，P0为非暴露人群的发病比例，则暴露人群的优势P1/（1- P1）与非暴露人群的优势P0/（1- P0）之比定义为暴露因素的优势比OR.

统计学意义：logistic回归模型中的系数与优势比OR有着极为密切的关系，同时与暴露因素的量化方法密切相关。

（1）（2）（3） 6.

在暴露因素x为二水平时，暴露时x=1，非暴露时x=0，则logistic回归模型中x的系数就是暴露与非暴露优势比之对数值。?＝ln(OR)

等级变量：一般以最小等级或最大等级作为参考组，并按等级顺序依次取为0，1，2，…。此时，exp(?)表示X增加一个等级时的优势比， exp(k?)表示增加k个等级时的优势比连续性变量：表示增加1(个计量单位)时的优势比（在实际评价中意义不大）。

何为哑变量，并举例说明哑变量设置的方法？

哑变量：在分析多分类无序变量时，要讲原始变量转化成一个二分类的变量，通常将有K个类别的变量转换成K-1个指示变量或哑变量。又称虚设变量、名义变量，是量化了的质变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到俩个方程的作用，而且接近现实。

举例：x＝1时：D1＝0， D2＝0， D3＝0 表示A型血 x＝2时：D1＝1， D2＝0， D3＝0 表示B型血 x＝3时：D1＝0， D2＝1， D3＝0 表示AB型血 x＝4时：D1＝0， D2＝0， D3＝1 表示O型血 7.

条件LOGISTIC回归模型和非条件LOGITIC回归模型的主要区别及在SPSS软件中的应该注意哪些问题？

主要区别：1、二分类非条件logistic回归是研究1个因变量（两分类：0、1）与多个自变量之间回归关系的统计分析方法。logistic回归模型对资料分布亦无特殊要求，故自变量可以是连续型变量，也可以是离散型变量。数据格式(原始数据、频数表两种形式 2、SPSS在内的多数统计软件都没有对配对logistic回归模型提供直接拟合的方法，需要将数据格式加以变换后可以采用常用的其他方法来拟合。 8.

总结上述几种方法的应用条件和注意事项。应用条件：

1、多元线性回归：（1）应变量与自变量之间的关系是线性的(linear)；（2）各自变量之间相互独立(indedpendent)；（3）各变量满足正态性（此条件可以放宽）(normality) ；（4）方差齐性(homogeneity or equal variance) 简称为LINE

2、logistic回归：（1）独立性。各观察对象间是相互独立的。（2）logisticP与自变量的关系式线性关系。当自变量是分类变量时不需要考虑。（3）累积优势logistic回归模型假设，相邻等级比较时，自变量的回归系数与分割点j无关。（4）相邻优势logistic回归模型假设，相邻等级比较时，自变量的回归系数应相等，

与比较的两类无关。（5）当对队列资料进行logistic回归分析时，要求各观察对象的观察时间相同，否则需考虑观察时间的影响。 3、聚类分析和判别分析：

聚类分析的目的是什么？有哪两种类型？

聚类分析可以将众多的观测变量分类，确定各类中的典型变量以达到降维目的。样本聚类和变量聚类

判别分析是一种什么样的统计方法 ?

判别分析是事先已知研究对象的类别，通过观测各类别某些指标（变量）的类间差异，判断新的未知研究对象应归属何种类别。

4.主成分分析和因子分析：主成分分析的概念及应用条件

从多个数值变量（指标）之间的相互关系入手，利用降维的思想，将多个变量(指标)化为几个少数互不相关的综合变量（指标）的统计方法。应用条件：变量间存在较大的相关性。因子分析的基本思想

根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，不同组的变量相关性较低。即每组代表一个方面（因子）。 5.生存分析：

生存分析方法用于什么类型的资料？该类资料有什么特点？

随访资料；（1）该类资料特点：生存时间的分布是偏态的，一般为正偏态分布；

(2)数据中常含有不完全信息，即数据截尾。

生存分析方法有什么特点？

能将研究对象的随访结局和生存时间两个因素同时结合起来考虑的一种统计方法；能处理失访等不完全数据，充分利用所获得的信息，对生存时间的分别特征进行描述、比较，对影响生存时间的主要因素进行分析，达到全面评价和比较随访资料的目的。

第一章

1. 多元线性回归模型（方程）的一般形式？

?=a+b1*x1+b2*x2+…. + bm*xm 2. 多元线性回归分析的应用条件？

1.自变量与应变量之间的关系是线性的

2. 自变量取不同值时，应变量的分布是正态的； 3. 方差齐性；

4. 各观察值间是独立的

3. 什么是偏回归系数？采用什么方法进行估计？偏回归系数是否有统计学意义应采用什么方法进行检

验？

即在其它自变量固定不变情况下，xi改变一个单位，因变量平均改变bi 个单位。对应的总体偏回归系数为βi，若βi =0，则该自变量xi与因变量y之间无线性关系，即xi对因变量y无影响。偏回归系数采用最小二乘法估计。有统计学意义时采用t检验进行检验。 4. 回归方程有无统计学意义应采用什么方法进行检验？

方差分析

5. 采用什么指标来比较不同自变量对应变量y的贡献大小？

标准偏回归系数

6. 主要采用什么指标来评价所拟合的多元线性回归方程效果或优劣？ 7. 在拟合模型时，自变量进入回归方程的方法有哪些？

强迫引入法，前进法，后退法，逐步向前，逐步向后

多元线性回归

8. 逐步回归的方法中，逐步向前是如何选择自变量？

1、事先给定一个剔除变量的标准；

2、按自变量对因变量的贡献大小，由大到小依次进入方程；

3、每当一个自变量进入方程，重新对方程内的自变量进行假设检验，有统计学意义的自变量继续留在方程中，无统计学意义的自变量则被剔除；

4、如此边引入边剔除，直到既没有新的有统计学意义的自变量可引入方程内，也没有无统计学意义的自变量被剔除方程外为止。

9. 常用的剔除、选择自变量的标准中，除了根据假设检验的P值大小来选择，另一个标准是什么？