数据分析简答题

更新时间:2024-01-15 03:40:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

三 · 简 答 题

1. 判别分析与聚类分析有何区别?

判别分析是对于 n 个给定的样本,己知每个样本属于 k 个类别中的某一类,利用这些数据,找到一种判别方法,使得这种判别方法具有某种最优性质,能把属于不同种类的样本点尽可能的区别开来,并对测得同样指标数据的新样本,能够判别这个样本归属于哪一类。

聚类分析是在样品和类之间定义一种距离,按照距离的大小对样品进行聚类,距离相近的样品先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品总能聚到合适的类 中。

聚类分析没有判别函数,对新的样品无法判别它应该归属哪一类,必须重新进行聚类过程,才能判别它属于哪类。系统聚类分析能够得到样品从最小的分类(每个样品自成一类)到最大的分类的情况,而判别分析没有这种功能,但判别分析的距离判别法与聚类分析非常相似,也是根据距离的远近判别样本的归属问题。

2.K 均值法与系统聚类法的异同

(1)K 均值法事先必须确定分类的个数,分类的个数确定,而系统聚类分析系统聚类分析能够得到样品从最小的分类(每个样品自成一类)到最大的分类的情况,以根据需要将样品分为几类。 ( 2 ) K 均值法可以随意将样品分为 K 类,根据样品到类中心的距离远近重新进行分类,而系统聚类中样品一旦划入某一类就不能更改。

( 3 ) K 均值法样品与不同类间的距离采用点到类中心的平方欧氏距离,而系统类中点、间距离有很多种定义方法。

3.简述系统聚类法的思想。

基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化。

4.简述快速聚类法的思想。

以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

5.试述主成成分的基本思想及求解步骤。

(1)基本思想

主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化,由相关阵出发求解主成分。对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。

(2)步骤

1. 指标数据标准化(SPSS软件自动执行); 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分Fi表达式; 5. 主成分Fi命名;

6.简述主成成分分析中累计贡献率的具体意义。

7. 简述因子模型X =AY + 中载荷矩阵的统计意义。

8·因子分析与主成分分析的区别与联系

(1)因子分析从变量的相关性出发,根据相关性的大小将变量进行分组,同组变量的相关性较强,不同组变量的相关性较弱,每组代表一个结构,这个结构用一个公因子表示,将变量表示成公因子的线性组合和特殊因子的和。

主成分分析是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量。 (2)因子分析是把变量表示成公因子的线性组合和特殊因子的和,主成分分析是把主成分表示成各变量的线性组合。

(3)抽取因子的方法不仅有主成分法,还有主轴因子法,极大似然估计法等,主成分分析只有主成分法抽取主成分。

(4)主成分分析中当给定的协差阵或相关系数阵的特征值唯一时,主成分一般是固定的,而因子分析中的因子不是固定的,可以旋转得到不同的因子。

9.针对典型相关分析而言,简述典型变量与典型相关系数的概念。

在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。

46.简述典型相关分析的基本思想与步骤,试举例说明它的应用。

答:基本思想:在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。 步骤:(1)确定典型相关分析的目标 (2)设计典型相关分析

(3)检验典型相关分析的基本假设 (4)估计典型模型,评价模型拟合程度 (5)解释典型变量 (6)验证模型

典 型相关分析的用途很广。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的 增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。

10.简述典型相关分析中典型载荷分析与典型冗余分析的内容与作用。

作用:

进行典型载荷分析有助于更好解释分析已提取的p对典型变量。分析原始变量与典型变量之间相关性。

典型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量

本文来源:https://www.bwwdw.com/article/sojo.html

Top