多元统计分析报告

更新时间:2023-09-04 12:55:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

聚类分析、主成分分析、因子分析的应用

一、选题背景

此题选自2012年的全国大学生数据建模竞赛的A题,其中涉及多元统计分析中的多种分析方法,在这里我使用通过使用显著性检验,聚类分析、主成分分析和因子分析将计算的过程展现出来。因为处理数据的角度不同,所以分析的结果有可能和获奖的优秀论文中的结果有所差异,如果有不正确的地方,还望老师指点。因为数据量比较大,在这里不在列出,使用的数据通过http://www.77cn.com.cn/problem/2012/2012.html网站可以下载。

我曾参加过2012年的全国大学生数学建模竞赛,但是我们那时并没有深入的学习多元统计学方面的知识,当时做的时候只把前两问使用显著性分析和使用主成分分析进行了一些处理,通过上统计分析的课觉得这个题完全可以使用所学的知识解决,因此本文通过参考一些优秀的论文将这个题的整个过程详细的实现了一遍。使用的分析工具有EXCLE2007, SPSS17.0中文版和MATLAB2013.a。具体的题目如下:

确定葡萄酒质量时一般是通过聘请有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题: 1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?

2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

二、分析过程

1.问题一

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

表1(两种葡萄酒的得分情况)

使用表1中得出的平均值,利用SPSS中的Kendall和调系数检验法对这两组评委的打分进行一致性检验,这里之所以选择Kendall和调系数检验法,随让一致性检验有多种方法,但是不同的方法使用范围是有限制的,而此方法正是用来检验多个评分者给分的一致性程度。

Kendall和调系数检验法原理

和谐系数的计算公式:

若评分中出现相同等级,则需要计算校正的系数,其公式为:

SPSS操作步骤

打开SPSS并导入处理之后的结果,选择菜单栏中的“分析”—>“非参数检验”—>“K个相关样本”—>“选择检验的数据”。

分析结果 使用SPSS中Kendall检验进行评分的一致性检验的结果如表(2)所示:表(2)中红葡萄酒的和谐系数Kendall为0.128,白葡萄酒的和谐系数Kendall为0.396,由此可知两组评委给

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

因为两组评委打分的不一致性,因此可以进一步的运用可靠性分析,得到两组评酒员的评价结果的可靠度。 Cronbach’sα系数法是一种内在信度的检验方法,用以衡量组成量表题项的内在一致性程度如何。通常 <0.35是表示其信度为低信度,0.35< <0.70为时表示为中信度,0.70< 时表示信度为高信度。

Cronbach’sα系数

操作步骤:

打开SPSS并导入处理之后的结果,选择菜单栏中的“分析”—>“度量”—>“可靠性分析”—>“选择Cronbach’sα系数法”

表(3)可靠性统计量

通过使用 Cronbach’s可信度检验的结果可知,第一组的α系数为0.393,基于标准化项的α系数为0.577,第二组的α系数为0.566,基于标准化项的α系数为0.577,虽然两组的内部可行度并不高,但是第二组的评分结果的可信度比第一组的高。因此应该以第二组的评分结果为准。

2.问题二

首先对附表2中的数据进行处理,同样利用EXCLE对其中有多组测量数据的测量值求平均值,之后利用MATLAB中的系统聚类方法,根据酿酒葡萄的理化指标与葡萄酒中对应的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,其中葡萄酒的质量为第二组评委给葡萄酒的打分。

由于酿酒葡萄的理化指标有一级指标和二级指标之分,通过在第三问中的主成分分析中分别对一级指标单独进行主成分分析和对一、二级指标一起进行主成分分析的结果进行对比可知,二级指标的影响并不大,因此在这里给出的聚类结果为使用一级指标进行聚类的结果,其中红葡萄酒的酿酒葡萄的聚类结果如图(1)所示,白葡萄酒的酿酒葡萄的聚类结果如图(2)所示,酿酒葡萄的分级结果如表(4)所示。

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

图(1)红葡萄的分级结果

图(2)白葡萄的分级结果

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

使用白葡萄中与红葡萄酒中的一级指标对应的聚类结果,可知红葡萄的分级结果比较理想,但是白葡萄的分级结果并不是很好。

3.问题三

由于葡萄酒的理化指标比较多,要寻找葡萄酒的理化指标和酿酒葡萄之间的联系,应该首先对葡萄酒的理化指标进行降维处理,这里采用主成分分析方法对葡萄酒的理化指标进行降维处理,由于葡萄酒的理化指标有一级指标和二级指标之分,分别使用主成分分析可知二级指标对其影响不大,因此这里只给出了使用一级指标进行主成分分析的结果。

主成分分析的原理

(1)原始数据的标准化处理

假设进行主成分分析的指标变量有m 个:x1,,x2……xm, 共有n个评价对象,第i个评价对象的第j 个指标的取值为aij ,将各指标值aij 转换成标准化指标 。

均值和样本标准差。对应地,称为

(2)计算相关系数矩阵R 相关系数矩阵

其中

式中r ii=1 , r ij = r ji , r ij 是第i 个指标与第j 个指标的相关系数。 (3)计算特征值和特征向量

计算相关系数矩阵R 的特征值λ1≥λ2 ≥

……

中,即μj , sj 为第j个指标的样本

标准化指标变量。

≥λm≥0 ,及对应的特征向量, u1

u2…..u m,其中由特征向量组成m 个新的指标变量

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

式中y1 是第1主成分, y2 是第2主成分,…, y m 是第m 主成分。 (4)选择p ( p ≤ m)个主成分,计算综合评价值

① 计算特征值( j 1,2, ,m) λ j = L 的信息贡献率和累积贡献率。称

为主成分y j 的信息贡献率:

为主成分y 1 , y 2 , …, y p 的累积贡献率,当αp接近于1(αp= 0.85,0.90,0.95 )时,则选择前p 个指标变量y 1 , y 2 , …, y p作为p 个主成分,代替原来m个指标变量,从而可对p 个主成分进行综合分析。

② 计算综合得分

其中j b 为第j 个主成分的信息贡献率,根据综合得分值就可进行评价。 SPSS主成分分析的过程

在SPSS中打开相应的数据—>“分析”—>“降维”—>“因子分析”,之后再在里面描述对话框中选择主成分分析方法,在其他的选项中选择要得出的结果及显示的图片。 主成分分析结果

使用SPSS进行主成分分析的碎石图,如图(3)和图(4)所示:

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

有红葡萄酒的理化指标的成分矩阵中可知:

第一主成分主要包括总酚、DPPH半抑制体积、单宁、酒总黄酮、花色苷 第二主成分主要包括色泽b*、色泽a*、白藜芦醇、 地三主成分主要包括:色泽a*、

第四主成分主要包括:白藜芦醇(负相关)

有白葡萄酒的理化指标的成分矩阵中可知:

第一主成分中的:单宁,总酚,酒总黄酮,DPPH半抑制体积 第二主成分:色泽L*,色泽a*,色泽b*(负相关) 地三主成分:白藜芦醇, 第四主成分:酒总黄酮

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

保留四个主成分,通过SPPS求出其中不同主成分对应的主成分值如表(6)所示:

运用得到的葡萄酒主要成分,将每一个主成分与酿酒葡萄的理化指标进行多元回归分析,根据SPSS软件运行结果得出主成分与酿酒葡萄的理化指标的相关性。

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

使用SPSS中的回归分析的步骤为:“分析”—>“回归”—>“线性回归”,这里只是简单的使用了线性回归,有可能并不能很好的反映出其实际的关系,由于葡萄酒中的理化指标和葡萄中的理化指标是一致的,因此我认为这里使用葡萄理化指标的第一主成分和简单的线性回归既可以反应出基本的情况:其分析结果如下:

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

分析通过线性回归得到的方差可知,其标准误差基本上保持在0.01之下,由此可见这种使用简单的线性回归是可以反映出葡萄与葡萄酒的理化指标之间的关系。

4.问题四

利用因子分析分别给出酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响因素,将附件3中4个表格里的每张样品中所含各种芳香物质求和作为样品中的芳香指标与葡萄酒的理化指标一并进行因子分析。

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

表(8):红葡萄因子分析的解释的总方差

表(9):红葡萄酒因子分析的解释的总方差

自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有spss和matlab

表(10):白葡萄因子分析的解释的总方差

表(10):白葡萄酒因子分析的解释的总方差

比较前后两者结果中由样品中的芳香指标导致的影响差异来确定不能只用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,因为在不论是在葡萄还是葡萄酒中添加了芳香之后再进行分写的结果上方差的百分比有这很大的变化,芳香物质所占的比重也是很重要的。因此对于葡萄酒质量的好坏还需要结合感官指标,感官指标是评价葡萄酒质量的最终及最有效的指标。

三、总结

通过多远统计的学习,以前很多不懂的东西也理解了,但是还是存在一些问

题,因为平时使用的时候更多的是实际的操作,所以对与理论知识并不是很了解,通过进一步的学习,掌握了一些多远统计的基本理论知识,这让我在分析的过程中不再仅仅依赖于软件,而是更多的去思考怎么去做及如何改进。但是目前的水平还是有待提高的,因为我觉得在理论上学习的时间并不多,还是需要进一步的学习,才能将这些学到的分析方法活用到自己的专业中。

本文来源:https://www.bwwdw.com/article/qn7i.html

Top