应用多元统计分析课后答案 - 朱建平版

更新时间:2023-10-30 05:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第三章

3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为:

答: 第一,提出待检验的假设错误!未找到引用源。和H1; 第二,给出检验的统计量及其服从的分布;

第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。

均值向量的检验:

统计量 拒绝域

在单一变量中

当?已知 z?2当?未知 t?2

(X??0)?n |z|?z?/2

(X??0)n |t|?t?/2(n?1)

S1n (S?(Xi?X)2作为?2的估计量) ?n?1i?12 一个正态总体H0:μ?μ0

2协差阵Σ已知 T02?n(X?μ0)?Σ?1(X?μ0)~?2(p) T02??? 协差阵Σ未知

(T?(n?1)[n(X?μ0)?S 两个正态总体H0:μ1?μ2

2有共同已知协差阵 T0?(n?1)?p?12n?p2T~F(p,n?p) T?F?

(n?1)p(n?1)p2?1n(X?μ0)])

n?m2?Σ?1X(X?Y)(?Y)?~2p( ) T02???

n?m(n?m?2)?p?12T~F(p,?nm??p1有共同未知协差阵 F? ) F?F?

(n?m?2)p????n?m?n?m2?1(其中 T?(n?m?2)? (X?Y)?S?(X?Y)?)

n?mn?m????(n?p)nZ?S-1Z~F(p,n?p) F?F? 协差阵不等n?m F?p协差阵不等n?m F? 多个正态总体H0:?1??2????k

(n?p)nZ?S-1Z~F(p,n?p) F?F? p单因素方差 F?SSA(k?1)~F(k?1,n?k) F?F?

SSE(n?k)多因素方差 ?? 协差阵的检验 检验Σ?Σ0

ET?EA?E~?(p,n?k,k?1)

?1?n/2?e?H0:Σ?Ip ??exp??trS?S???2??n?np/2

np/2?1?n/2?e?H0:Σ?Σ0?Ip ??exp??trS*?S*???2??n?检验Σ1?Σ2??ΣkH0:Σ1?Σ2??Σk

统计量?k?nnp/2

?Si?1kni/2iSn/2?ni?1kipni/2

3.2 试述多元统计中霍特林错误!未找到引用源。分布和威尔克斯错误!未找到引用源。分布分别与一元统计中t分布和F分布的关系。 答:(1)霍特林错误!未找到引用源。分布是t分布对于多元变量的推广。

n(X??)22?1?t??n(X??)(S)(X??)而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与S2S2相互独立,n?p,则称统计量错误!未找到引用源。的分布为非中心霍特林T2分布。

2?1若X~Np(0,Σ),S~Wp(n,Σ)且X与S相互独立,令T?nX?SX,则

n?p?12T~F(pn,?p?1) 。np(2)威尔克斯错误!未找到引用源。分布在实际应用中经常把错误!未找到引用源。统计量化为T统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。

?与F统计量的关系 2

p n1 任意 n2 1 F统计量及分别 任意 n1?p?11??(p,n1,1)?~F(p,n1?p?1) p?(p,n1,1)n1?p1??(p,n1,2)?~F(2p,2(n1?p)) p?(p,n1,2)任意 任意 2 1 任意 任意 n11??(1,n1,n2)?~F(n2,n1) n2?(1,n1,n2)n1?11??(2,n1,n2)?~F(2n2,2(n1?1)) n2?(2,n1,n2)2 任意 任意

第四章

4.1 简述欧几里得距离与马氏距离的区别和联系。

答: 设p维欧几里得空间错误!未找到引用源。中的两点X=错误!未找到引用源。和Y=错误!未找到引用源。。则欧几里得距离为错误!未找到引用源。。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。

设X,Y是来自均值向量为错误!未找到引用源。,协方差为错误!未找到引用源。的总体G中的p维样本。则马氏距离为D(X,Y)=错误!未找到引用源。。当错误!未找到引用源。即单位阵时,D(X,Y)=错误!未找到引用源。=错误!未找到引用源。即欧几里得距离。

因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。

4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,?,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为错误!未找到引用源。,则称错误!未找到引用源。为错误!未找到引用源。的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间错误!未找到引用源。构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是?1和? 2,对于一个新的样品X,

22要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G1)和D(X,G2),则

22 X 错误!未找到引用源。 ,D(X,G1)错误!未找到引用源。D(X,G2)

22X 错误!未找到引用源。 ,D(X,G1)> D(X,G2, 具体分析,

D2(X,G1)?D2(X,G2)

?(X?μ1)?Σ?1(X?μ1)?(X?μ2)?Σ?1(X?μ2)?1?Σ?1μ1?(X?Σ?1X?2X?Σ?1μ2?μ??X?Σ?1X?2X?Σ?1μ1?μ12Σμ2)?1?Σ?1μ1?μ??2X?Σ?1(μ2?μ1)?μ12Σμ2?2X?Σ?1(μ2?μ1)?(μ1?μ2)?Σ?1(μ1?μ2)?μ1?μ2??1? ??2?X??Σ(μ1?μ2)2????2(X?μ)?α??2α?(X?μ)记W(X)?α?(X?μ) 则判别规则为

X 错误!未找到引用源。 ,W(X)错误!未找到引用源。 X 错误!未找到引用源。 ,W(X)<0 ②多个总体的判别问题。

设有k个总体G1,G2,?,Gk,其均值和协方差矩阵分别是μ1,μ2,?,μk和Σ1,Σ2,?,Σk,且Σ1?Σ2???Σk?Σ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。

具体分析,D2(X,G?)?(X?μ?)?Σ?1(X?μ?)

?Σ?1X?μ??Σ?1μ??X?Σ?1X?2μ??1?X?C?)?X?ΣX?2(I?1?1取I??Σ?1μ?,C???μ??Σμ?,??1,2,?,k。

2可以取线性判别函数为

?X?C?, ??1,2,?,k W?(X)?I??X?C?) 相应的判别规则为X?Gi 若 Wi(X)?max(I?1???k

4.4 简述贝叶斯判别法的基本思想和方法。

基本思想:设k个总体G1,G2,?,Gk,其各自的分布密度函数f1(x),f2(x),?,fk(x),假设k个总体各自出现的概率分别为q1,q2,?,qk,qi?0,

k?qi?1i?1。设将本来属于Gi总体的样品

错判到总体Gj时造成的损失为C(j|i),i,j?1,2,?,k。

设k个总体G1,G2,?,Gk相应的p维样本空间为 R?(R1,R2,?,Rk)。 在规则R下,将属于Gi的样品错判为Gj的概率为

P(j|i,R)??fi(x)dx i,j?1,2,?,kRji?j

则这种判别规则下样品错判后所造成的平均损失为

r(i|R)??[C(j|i)P(j|i,R)] i?1,2,?,k

j?1k则用规则R来进行判别所造成的总平均损失为

g(R)??qir(i,R)

k??qi?C(j|i)P(j|i,R)

i?1j?1i?1kk贝叶斯判别法则,就是要选择一种划分R1,R2,?,Rk,使总平均损失g(R)达到极小。 基本方法:g(R)?kk?q?C(j|i)P(j|i,R)

ii?1j?1kk??qi?C(j|i)?fi(x)dx

i?1j?1kRj

???(?qiC(j|i)fi(x))dx

j?1Rji?1k令

?qC(j|i)f(x)?h(x),则 g(R)???iiji?1kkj?1Rjhj(x)dx

R*j若有另一划分R?(R,R,?,R),g(R)?则在两种划分下的总平均损失之差为

**1*2*k*??j?1khj(x)dx

g(R)?g(R)????*i?1j?1kkRi?R*j[hi(x)?hj(x)]dx

因为在Ri上hi(x)?hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。

Ri?{x|hi(x)?minhj(x)}R?(R,R,?,R)1?j?k12k从而得到的划分为 i?1,2,?,k

4.5 简述费希尔判别法的基本思想和方法。

答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数

U(X)?u1X1?u2X2??upXp?u?X 系数u?(u1,u2,?,up)?可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ② 当k=2时,若错误!未找到引用源。则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。

③ 当错误!未找到引用源。时,费希尔判别用错误!未找到引用源。作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。

④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X 错误!未找到引用源。 ,W(X)错误!未找到引用源。

X 错误!未找到引用源。 ,W(X)

距离判别的判别规则是

X 错误!未找到引用源。 ,W(X)错误!未找到引用源。 X 错误!未找到引用源。 ,W(X)<0

二者的区别在于阈值点。当q1?q2,C(1|2)?C(2|1)时,d?1,lnd?0。二者完全相同。

第五章

5.1 判别分析和聚类分析有何区别?

答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。

5.2 试述系统聚类的基本思想。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?

答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:dij(q)q取不同值,分为 (1)绝对距离(q?1)

p?(?Xik?Xjk)k?1pq1/q

dij(1)??Xi?Xkk?1 j k

(2)欧氏距离(q?2)

dij(2)??(Xi?kXk?1p21/2jk

)

(3)切比雪夫距离(q??)

dij(?)?maxXik?Xjk1?k?p

1pXik?Xjk dij(L)??pk?1Xik?Xjk(二)马氏距离

2(三)兰氏距离 dij(M)?(Xi?Xj)?Σ?1(Xi?Xj)

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用

p(一)夹角余弦 XikXjkk?1 cos?? ijpp 2(Xik)(X2jk) k?1k?1

???(二)相关系数

p (Xik?Xi)(Xjk?Xj)k?1 rij? pp (Xik?Xi)2(Xjk?Xj)2k?1k?1

5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?

答: 设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。 (1). 最短距离法

??? Dij

?Xi?Gi,Xj?Gjmindij Dkr?

(2)最长距离法

Xi?Gk,Xj?Grmindij?min{Dkp,Dkq}

Dpq?Xi?Gp,Xj?Gqmaxdij

Dkr?Xi?Gk,Xj?Grmaxdij?max{Dkp,Dkq}

(3)中间距离法 121222 Dkr ?Dkp?Dkq??Dpq 22其中错误!未找到引用源。

(4)重心法

2Dpq?(Xp?Xq)?(Xp?Xq) Xr?1(npXp?nqXq) nrD?2krnpnrD?2kpnqnrD?2kqnpnqnr22Dpq

(5)类平均法

1D?npnq2pq1dD? ??nknrXi?GpXj?Gj2ij2krXi?GkXj?Gr??d2ij?npnrD?2kpnqnr2Dkq

(6)可变类平均法

np2 Dkr ?(1??)(nr

2Dkp?nqnr22 Dkq)??Dpq其中?是可变的且? <1

(7)可变法

2Dkr?1??222(Dkp?Dkq)??Dpq 其中?是可变的且? <1 2nt(8)离差平方和法

St??(Xit?Xt)?(Xit?Xt)

t?1 错误!未找到引用源。

nk2D?D?D?Dpq

nr?nknr?nknr?nk2kr2kp2kqnk?npnk?nq通常选择距离公式应注意遵循以下的基本原则:

(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。

(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

5.5试述K均值法与系统聚类法的异同。

答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。

5.6 试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。

答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。

有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(1),X(2),?,X(n)表示

n个有序的样品,则每一类必须是这样的形式,即X(i),X(i?1),?,X(j),其中1?i?n,且

j?n,简记为Gi?{i,i?1,?,j}。在同一类中的样品是次序相邻的。一般的步骤是(1)

计算直径{D(i,j)}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k。(4)最优分类。

第六章

6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处?

答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。

6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p个原始变量X1,X2,,Xp的总方差tr(Σ)分解成了p个相互独立的变量

Y1,Y2,,Yp的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们

pY?称?k??k??k 为第k个主成分k的贡献率。第一主成分的贡献率最大,这表明Y1?T1Xk?1??pkk?1综合原始变量X1,X2,,Xp的能力最强,而Y2,Y3,mk?1,Yp的综合能力依次递减。若只取

,Ym的累计贡献率,累计贡献率

m(?p)个主成分,则称?m???k表明Y1,??k?1pk 为主成分Y1,,Ym综合X1,X2,,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分

数(如85%以上)。

6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确? 说明理由。 答:这个说法是正确的。

即原变量方差之和等于新的变量的方差之和

6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵错误!未找到引用源。出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,

不仅便于剖析实际问题,又可以避免突出数值大的变量。

第七章

7.1 试述因子分析与主成分分析的联系与区别。

答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。

因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。

7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。

7.3 简述因子模型错误!未找到引用源。中载荷矩阵A的统计意义。 答:对于因子模型

Xi?ai1F1?ai2F2??aijFj??aimFm??i i?1,2,,p

本文来源:https://www.bwwdw.com/article/chj2.html

Top