实用多元统计分析相关习题

更新时间:2023-10-28 09:24:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

练习题

一、 填空题

1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。

2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3.回归方程显著性检验时通常采用的统计量是(SR/p)/[SE/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。

5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。

7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。

10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。

11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。

13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。

15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。

16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。

19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。

20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。

21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。

22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。

23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大 ),分类效果越(好 )。 24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

(离差)尽可能接近,而不同组间点的尽可能疏远。 二、简答题

1、简述复相关系数与偏相关系数。

答:复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

偏相关系数:又叫部分相关系数。部分相关系数反映校正其它变量后某一变量与另一变量的相关关系。偏相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。 偏相关系数的假设检验等同于偏回归系数的t检验。 复相关系数的假设检验等同于回归方程的方差分析。

2、简述逐步回归分析方法的具体实施步骤。 答:逐步回归过程如下:

1)自变量的剔除;

2)重新进行少一个自变量的多元线性回归分析; 3)重新进行多一个自变量的多元线性回归分析;

4)重新进行上述步骤,直至无法再删除和再引入自变量为止。

3、提取样本主成分的原则。

答:主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此,一般可以用特征值大于1作为纳入标准。

4、简述系统聚类法的基本思想及主要步骤。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n 1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n 2类;??,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类,也简称聚集法。还有与以上方法相反的称分解法。

5、简述快速聚类(k—均值聚类)的基本思想及主要步骤。

答:基本思想:1.一个样品分配给最近中心(均值)的类中,将所有样品分成k个初始类。2.通过欧式距离将每个样品划入离中心最近的类中,并对得到样品或失去样品的类重新计算中心坐标。3.重复步骤2,直到所有样品都不能再分配时为止。

6、判别分析的分类。

答:判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。

判别分析按判别的组数来分,有两组判别分析和多组判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别等;按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇(Fisher)判别等。

7、简述Fisher判别规则及具体判别步骤。

答:Fisher判别法的基本思想:从多个总体(类)抽取一定的样本,借助方差分析的思想,建立p个指标的线性判别函数,把待判样品代入线性判别函数,然后与临界值比较,就可判样品属于哪个类。

Fisher判别法的具体算法步骤:由Fisher线性判别式

?*?S??M1?M2?求解向量?*的步骤:

?1?1① 把来自两类?2训练样本集X分成?1和?2两个子集X1和X2。

1

Mi? ② 由③ 由

1nixk?Xi?Xk,I?1,2,计算Mi。

TSi???Xk?Mi??xk?Mi?xk?Xi计算各类的类内离散度矩阵Si ,i=1,2。

④ 计算类内总离散度矩阵S??S1?S2。 ⑤ 计算S?的逆矩阵S?。 ⑥ 由

?*??1S??M1?M2?求解?*。

?1三、计算题

1.现收集了92组合金钢中的碳含量x及强度y,且求得:

x?0.1255,y?45.7989Lxx?0.3019Lxy?26.5126Lyy?2941.03 (1)求y关于x的一元线性回归方程; (2)求y与x的相关系数;

(3)列出对方程作显著性检验的方差分析表;

?的点估计。 (4)在x=0.1时,求y

2

2. 某地区通过一个样本容量为722的调查数据得到劳动力受教育年数的一个回归方程为

edui?10.36?0.094sibsi?0.131medui?0.210fedui R2?0.21 4式中,edu为劳动力受教育年数,sibs为劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问

deu(1)若m与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?

(2)请对medu的系数给予适当的解释。

(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数均为12年,另一个的父母受教育的年数均为16年,则两人受教育的年数预期相差多少年

3

4

3.下表给出一二元模型的回归结果。 方差来源 平方和(SS) 自由度(d.f.) 来自回归(ESS) 65965 — 来自残差(RSS) — — 总离差(TSS) 66042 14 求:(1)样本容量是多少?RSS是多少?ESS和RSS的自由度各是多少? (2)R2和R?

(3)检验假设:解释变量总体上对Y有无影响。你用什么假设检验?为什么?

2

4.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表: 头长x1 头宽x2 肱骨x3 尺骨x4 股骨x5 胫骨x6 Y1 0.35 0.33 0.44 0.44 0.43 0.44 Y2 0.53 0.70 –0.19 –0.25 –0.28 –0.22 Y3 0.76 -0.64 -0.05 -0.02 -0.06 -0.05 Y4 -0.05 0.00 0.53 0.48 –0.51 –0.48 Y5 -0.04 0.00 0.19 –0.15 –0.67 –0.70 Y6 0.00 –0.04 0.59 –0.63 0.48 0.15 特征值 4.57 0.71 0.41 0.17 0.08 0.06 (1) 计算前三个主成分各自的贡献率和累积贡献率。 (2) 对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。 解:

5

5.在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变量:叶长(x1),2/3处宽(x2),1/3处宽(x3),1/2处宽(x4)。这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:

?1?2.920U1??(0.1485,?0.5735,?0.5577,?0.5814)??(0.9544?2?1.024U2,?0.0984,0.2695,0.0824)

??(0.2516?3?0.049U3,0.7733,?0.5589,?0.1624)??(?0.0612?4?0.007U4,0.2519,0.5513,?0.7930)写出四个主成分,计算它们的贡献率。

解:各自的主成分为:

Z1=0.1485X1-0.5735X2-0.5577X3-0.5814X4 Z2=0.9544X1-0.0984X2+0.2695X3+0.0824X4 Z3=0.2516X1+0.7733X2-0.5589X3-0.1624X4 Z4=-0.0612X1+0.2519X2+0.5513X3-0.7930X4 则各自的贡献率为:

W1=2.920/(2.920+1.024+0.049+0.007)=0.73 W2=1.024/(2.920+1.024+0.049+0.007)=0.256 W2=0.049/(2.920+1.024+0.049+0.007)=0.01225 W2=0.007/(2.920+1.024+0.049+0.007)=0.00175

6.对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析,其中x1,x2,x3分别表示三个化学工业公司的股票回升率,x4,x5表示两个石油公司的股票回升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:

?1?2.857U1??(0.464,0.457,0.470,0.421,0.421)

??(0.240,0.509,0.260,?0.526,?0.582)?2?0.809U2(1) 计算这两个主成分的方差贡献率。

解:各自的主成分为:

Z1=0.464X1+0.457X2+0.470X3+0.421X4+0.421X5 Z2=0.240X1+0.509X2+0.260X3-0.526X4-0.582X5 则各自的贡献率为:

W1=2.587/(2.587+0.809)=0.762 W2=0.809/(2.587+0.809)=0.238

(2) 能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。 答:

解释:由SPSS抽取的两个主成分,其特征值分别为2.857和0.809,。根据主成分分析得知:各自的贡献率为W1=76.2%,W2=23.8%。由此可知,第一个主成分对变量(股票回升率)影响较大。

命名:一、化学工业公司股票回升率 二 、石油公司股票回升率

7、下面给出了八个样品的两个指标数据 样 1 2 3 4 5 6 7 8 指 标

6

X1 X2 2 4 4 7 0 13 1 12 3 9 5 11 2 14 3 16 使用按动态聚类法进行聚类,采用欧氏距离(取1、3、7号样本为聚点)。 解:

四、上机操作

会进行回归、聚类、因子、主成分、判别分析基本操作,上级题目随机抽取。 ★请指出下面SPSS软件操作分别代表多元统计分析中什么分析:

(1)Analysis→Regression→Linear regression 回归分析 (2)Analysis→Classify→Hierachical Cluster 系统聚类分析

聚类分析 (3)Analysis→Classify→Kmean Cluster K-均值聚类分析 (4)Analysis→Data Reduction→Factor 因子分析

(5)Analysis→Data Reduction→Faactor 主成分分析 (6)Analysis→Classify→Discriminant 判别分析

7

本文来源:https://www.bwwdw.com/article/bee2.html

Top