实验报告八-SAS聚类分析与判别分析

更新时间:2024-06-08 01:54:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实 验 报 告

实验项目名称 所属课程名称 实 验 类 型 实 验 日 期 班 级 学 号 姓 名 成 绩

聚类分析与判别分析 统计分析及SAS实现 验证性实验 2016-12-19 数学与应用数学

实验概述: 【实验目的及要求】 掌握SAS中根据样本或变量按照其性质上的亲疏、相似程度进行聚类分析的方法以及判别样品所属类型的判别分析的方法。掌握SAS系统中编程实现聚类分析与判别分析的方法。 【实验原理】 SAS软件的操作方法及原理 【实验环境】(使用的软件) SAS 9.3 实验内容: 【实验方案设计】 一.理解聚类分析、判别分析的基本概念; 二.掌握系统聚类法的基本思想和步骤; 三.掌握判别分析的距离判别法、Fisher判别法和Bayes判别法; 四.利用编程proc过程步实现系统聚类法与判别分析。 【实验过程】(实验步骤、记录、数据、分析) 【练习8-1】为了更深入了解我国人口文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标变量:大学以上文化程度的人口占全部人口的比例(DXBZ),初中文化程度的人口占全部人口的比例(CZBZ),文盲半文盲人口占全部人口的比例(DXBZ),原始数据如表所示。 表 1990年全国人口普查文化程度人口比例 Region Num DXBZ CZBZ WMBZ Beijing 1 9.3 30.55 8.7 Tianjing 2 4.67 29.38 8.92 Hebei 3 0.96 24.69 15.21 Shanxi 4 1.38 29.24 11.3 Neimeng 5 1.48 25.47 15.39 Liaoning 6 2.6 32.32 8.81 Jilin 7 2.15 26.31 10.49 Heilongj 8 2.14 28.46 10.87 Shanghai 9 6.53 31.59 11.04 Jiangsu 10 1.47 26.43 17.23 Zhejiang 11 1.17 23.74 17.46 Anhui 12 0.88 19.97 24.43 Fujian 13 1.23 16.87 15.63 Jiangxi 14 0.99 18.84 16.22 Shandong 15 0.98 25.18 16.87 Henan 16 0.85 26.55 16.15 Hubei 17 1.57 23.16 15.79 Hunan 18 1.14 22.57 12.1 Guangdong 19 1.34 23.04 10.45 Guangxi 20 0.79 19.14 10.61 Hainan 21 1.24 22.53 13.97 Sichuan 22 0.96 21.65 16.24 Guizhou 23 0.78 14.65 24.27 Yunnan 24 0.81 13.85 25.44 Xizang 25 0.57 3.85 44.43 Shanxi 26 1.67 24.36 17.62 Gansu 27 1.1 16.85 27.93 Qinghai 28 1.49 17.76 27.7 Ningxia 29 1.61 20.27 22.06 Xinjjiang 30 1.85 20.66 12.75 【解答】 ①利用proc cluster过程步实现聚类分析: libname lmf \; proc cluster data=Lmf.p81 standard method=ward outtree=Lmf.tree1 pseudo; var DXBZ CZBZ WMBZ; copy Region; run; 结果: 表8.1 Ward's Minimum Variance Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 2.21945956 1.58864479 2 0.63081477 0.48108909 3 0.14972568 0.7398 0.2103 0.0499 0.7398 0.9501 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation 1 Root-Mean-Square Distance Between Observations 2.44949 由表8.1 Ward离差平方和法得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为2.44949。 表8.2 Cluster History Number Clusters Freq Semipartial R-Square Pseudo F Pseudo Tie of Joined R-Square Statistic t-Squared Clusters 29 OB23 OB24 2 0.0002 1.00 150 . 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 OB3 OB15 2 OB18 OB21 2 OB27 OB28 2 OB5 OB10 2 OB11 OB26 2 CL28 OB16 3 CL24 OB17 3 OB13 OB14 2 OB7 OB8 2 0.0003 0.0004 0.0004 0.0005 0.0005 0.0006 0.0006 0.0007 0.0007 0.0010 0.0013 0.0015 0.0018 0.0020 0.0021 0.0038 0.0046 0.0055 0.0063 0.0070 0.0106 0.0108 0.0292 0.0308 0.0608 .999 .999 .999 .998 .998 .997 .997 .996 .995 .994 .993 .991 .990 .988 .985 .982 .977 .972 .965 .958 .948 .937 .908 .877 .816 135 126 123 117 115 111 109 106 106 102 96.9 92.6 88.2 84.9 83.4 75.8 69.6 64.8 61.6 60.2 56.8 56.8 47.1 44.5 38.4 . . . . . 1.9 1.3 . . 2.7 2.8 . 3.2 3.0 2.8 3.4 5.8 17.6 4.5 . 5.6 6.9 14.2 4.4 16.3 CL27 OB19 3 CL23 CL25 5 OB12 OB29 2 CL22 OB22 4 CL19 OB30 4 OB4 CL20 3 CL15 OB20 5 CL18 CL16 9 CL29 CL26 4 CL14 OB6 OB2 OB9 4 2 CL17 CL11 6 CL21 CL13 7 CL12 CL7 16 OB1 CL9 3 CL6 CL10 20

Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为3.741657。 表8.6 Cluster History Number ClusterFreof s Joined q Clusters 5 4 3 2 1 OB1 OB2 2 OB4 OB6 2 OB3 OB5 2 CL5 CL4 4 CL2 CL3 6 Semipartial R-Square 0.0191 0.1168 0.1913 0.1930 0.4797 R-Square Pseudo F Pseudo Statistit-Squarec d 12.8 4.2 3.1 3.7 . . . . 2.8 3.7 Tie .981 .864 .673 .480 .000 由表8.6聚类分析的完整过程(Cluster History)得出,类别数量(Number of Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类,例如第三行表示聚为3类,合并了Num为3与Num为5的两类,也就是3、4号铅弹头。 样品频数(FREQ)表示这次合并得到的类有多少个样品。 通过观察分类数的统计量半偏R2(Semipartial R-Square),R2(R-Square),伪F统计量(Pseudo F Statistic),伪t2统计量(Pseudot-Squared),分析出分类个数的结果: 半偏R2(Semipartial R-Square)最大值与次大值分别为类别数量(Number of Clusters)为1、2时的0.4797、0.1930,说明将铅弹头分为2类或3类较好;从表8.6中R2(R-Square)看出,数据是逐渐减小,但在类别数量(Number of Clusters)为3时,突然骤减,说明分为4个类合适;伪F统计量(Pseudo F Statistic)数据减小,在类别数量(Number of Clusters)为2时突然增大,说明将铅弹头分为3类较好。;伪t2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(Number of Clusters)为1、2时的2.8、3.7,说明将铅弹头分为3类或2类较好。 距离最小的候选类对数(Tie),本题无数据。 图8.4 聚类谱系图 由表8.6、图8.4得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。 ⑶利用proc cluster过程步实现系统聚类分析中最长距离法聚类: libname Lmf \; proc cluster data=Lmf.p82 standard method = complete outtree=Lmf.tree3 pseudo; var Ag Al Cu Ca Sb Bi Sn; copy Num; run; 结果: 表8.7 Complete Linkage Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.74048086 2.08236043 2 1.65812043 0.61144007 3 1.04668036 0.51883529 4 0.52784507 0.50097179 5 0.02687328 0.02687328 6 0.00000000 0.00000000 0.5344 0.2369 0.1495 0.0754 0.0038 0.0000 0.5344 0.7712 0.9208 0.9962 1.0000 1.0000 7 0.00000000 0.0000 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation 1 Mean Distance Between Observations 3.60714 由表8.7 Ward离差平方和法(Ward's Minimum Variance Method)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为3.60714。 表8.8 Cluster History Cluster History Number Clusters Joined Freq Pseudo F Pseudo Norm Tie of Statistic t-Squared Maximum Clusters Distance 5 4 3 2 1 OB1 OB4 OB3 CL5 CL2 OB2 OB6 OB5 CL4 CL3 2 2 2 4 6 12.8 4.2 3.1 3.7 . . . . 2.8 3.7 0.3207 0.7927 1.0145 1.0208 1.4611 由表8.8聚类分析的完整过程(Cluster History)得出,类别数量(Number of Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类。 样品频数(FREQ)表示这次合并得到的类有多少个样品。 通过观察分类数的统计量伪F统计量(Pseudo F Statistic),伪t2统计量(Pseudot-Squared),得出的结果与Ward离差平方和法的结果一样。但在Norm Maximum Distance中类别数量(Number of Clusters)为4、3时增大的数值较小,说明将铅弹头分为4类或3类较好。 距离最小的候选类对数(Tie),本题无数据。 图8.5 聚类谱系图 由表8.8、图8.5得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。 通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,综合比较对6个铅弹头分为四类较合适。 ②利用proc varclus过程步实现变量聚类分析: proc varclus data=Lmf.p82 ourtree=Lmf.tree3; var Ag Al Cu Ca Sb Bi Sn; run; 表8.9 Oblique Principal Component Cluster Analysis Observations 6 Proportion 0 Variables 7 Maxeigen 1 Clustering algorithm converged. Cluster Summary for 1 Cluster Cluster Members Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 7 7 3.740481 0.5344 1.6581 Total variation explained = 3.740481 Proportion = 0.5344 Cluster 1 will be split because it has the largest second eigenvalue, 1.65812, which is greater than the MAXEIGEN=1 value. 表8.9分解法思想进行斜交主成分聚类(Oblique Principal Component Cluster Analysis),把全部7个变量聚成一类,能解释的方差为3.740481,占总方差的53.44%,第二特征值为1.6581>1,并预告这一类将被分裂。 表8.10 Cluster Summary for 2 Clusters: Cluster Members Cluster Variation Proportion Second Variation Explained Explained Eigenvalue 1 2 4 3 4 3 2.925514 0.7314 2.1376 0.7125 0.9380 0.5903 Total variation explained = 5.063113 Proportion = 0.7233 由表8.10分为两类的聚类概要(Cluster Summary for 2 Clusters)得出,由类内变量个数(Cluster Variation)可知第一类有4个变量,第二类有3个变量,能解释的方差(Variation Explained)为5.063113,占总方差(Proportion Explained)的72.33%,第二特征值(Second Eigenvalue)分别为0.9380、0.5903。 表8.11 R-squared with: R-squared with 1-R**2 Variable Ratio Label Cluster Variable Own Next Cluster Closest Cluster 1 Cluster 2 Al Cu Ca Sb Ag Bi Sn 0.5188 0.0169 0.4895 Al 0.9805 0.1605 0.0232 Cu 0.9397 0.3572 0.0938 Ca 0.4865 0.0285 0.5286 Sb 0.7378 0.0179 0.2670 Ag 0.5823 0.0241 0.4281 Bi 0.8175 0.4918 0.3591 Sn 2 Clusters 由表8.11 相关系数的平方( R-squared with)可知 ,每个变量与所属类分量之间相关系数的平方R2(R-Squared With Own Cluster)例如变量Al在第1类中,它与第1类分量之间的R2是0.5188。每个变量与相邻类的类分量之间的相关系数的平方R2(R-squared with Next Closest),例如:Al与第2类分量之间的相关系数平方R2为0.0169,该值较小,说明分类较合理。由于

1?R**2Ratio?1?(R?squared with Own Cluster)1?(R?squared with Next Closest) 此值越小,表明分类越合理。从此列可看出,比值不是很大,说明这7个变量分成两类可能较合适的。 表8.12 Standardized Scoring Coefficients Cluster Ag Al Cu Ca Sb Bi Sn 1 2 Ag 0.000000 0.401833 Al 0.246204 0.000000 Cu 0.338476 0.000000 Ca 0.331353 0.000000 Sb 0.238418 0.000000 Bi 0.000000 -.356975 Sn 0.000000 0.422982 由表8.12 从标准化变量预测类分量的标准回归系数(Standardized Scoring Coefficients)看出各变量只对本类的类分量有贡献,对其他类分量的回归系数为0。若设C1、C2分别为第一类、第二类分量,则有: C1?0.246204Al?0.338476Cu?0.331353Ca?0.238418Sb C2?0.401833Ag?0.356975Bi?0.422982Sn 表8.13 Cluster Structure Cluster Ag Al Cu Ca Sb Bi Sn 1 2 Ag -.133896 0.858957 Al 0.720274 -.130117 Cu 0.990216 -.400574 Ca 0.969377 -.597652 Sb 0.697494 -.168898 Bi 0.155401 -.763069 Sn -.701315 0.904167 由表8.13给出类结构( Cluster Structure)得出,因类结构相当于因子分析中的因子模型,则有: Ag??0.133896C1?0.858957C2 Al?0.720274C1?0.130117C2 Cu?0.990216C1?0.400574C2 Ca?0.969377C1?0.597652C2 Sb?0.697494C1?0.168898C2 Bi?0.155401C1?0.763069C2 Sn??7.01315C1?0.904167C2 表8.14 Inter-Cluster Correlations: Cluster 1 2 1 2 1.00000 -0.40592 -0.40592 1.00000 No cluster meets the criterion for splitting. 由表8.14类内相关系数(Inter-Cluster Correlations)得出相关系数为0.40592,大于0.3,小于0.5,第一、二类为低度相关。 表8.15: Number Total Proportioof Variation Clustern of s ExplaineVariation d Explained by by Clusters Clusters 1 2 3.740481 0.5344 5.063113 0.7233 Minimum Maximum Minimum Maximum ProportioSecond R-square1-R**2 n Eigenvalud Ratio Explained e for a for a by a in a Variable VariablCluster Cluster e 0.5344 0.7125 1.658120 0.1731 0.938033 0.4865 0.5286 由表8.15汇总信息得出,第一类能解释的总方差量为3.740481,解释的方差占7个变量的总方差的53.44%,由一类成分能解释的方差占全部7个变量的总方差的最小百分比为0.5344,1个变量与其所在类的类分量的最小相关系数的平方R2(Minimum R-squared for a Variable)为0.1731,各类中 (1?R2)own/(1?R2)next 的最大比值(Maximum 1-R**2 Ratio for a Variable)为空。第二类能解释的总方差量为5.063113,解释的方差占7个变量的总方差的72.33%,由一类成分能解释的方差占全部7个变量的总方差的最小百分比为0.7125,1个变量与其所在类的类分量的最小相关系数的平方R2(Minimum R-squared for a Variable)为0.4865,各类中 (1?R2)own/(1?R2)next 的最大比值(Maximum 1-R**2 Ratio for a Variable)为0.5286,。最大的第二特征值分成两类时已经小于1,说明分类数为二合适。 图8.6 聚类谱系图 由图8.6得出,分为两类较合适,第一类为Sn、Bi、Ag,第二类为Sb、Ca、Cu、Al。 【练习8-4】根据经验,今天与昨天的湿度差x1及今天的压温差(气压与温度之差)x2是预报明天是否下雨的两个重要因素。现收集到一批样本数据如表。 今测得x1?0.6,x2?3.0,假定两组的协方差矩阵相等。 RaD 1 1 1 1 1 1 1 1 1 1 2 2 2 Wet -1.9 -6.9 5.2 5 7.3 6.8 0.9 -12.5 1.5 3.8 0.2 -0.1 0.4 PesT 3.2 10.4 2 2.5 0 12.7 -15.4 -2.5 1.3 6.8 6.2 7.5 14.6 2 2 2 2 2 2 2 2.7 2.1 -4.6 -1.7 -2.6 2.6 -2.8 8.3 0.8 4.3 10.9 13.1 12.8 10 (“1”表示雨天,“2”表示非雨天) ①试用距离判别法预报明天是否会下雨,并估计误判概率; ②假定两组x?(x1,x2)均服从二元正态分布,且根据其他信息及经验给出先验概率p1?0.3,p2?0.7,试用贝叶斯判别法预报明天是否下雨; 【解答】 利用编程过程实现题目数据: data Lmf.p84; input RaD Wet PesT@@; cards; 1 -1.9 3.2 1 -6.9 10.4 1 5.2 2.0 1 5.0 2.5 1 7.3 0.0 1 6.8 12.7 1 0.9 -15.4 1 -12.5 -2.5 1 1.5 1.3 1 3.8 6.8 2 0.2 6.2 2 -0.1 7.5 2 0.4 14.6 2 2.7 8.3 2 2.1 0.8 2 -4.6 4.3 2 -1.7 10.9 2 -2.6 13.1 2 2.6 12.8 2 -2.8 10.0 ; run; ①试用距离判别法预报明天是否会下雨,并估计误判概率; 利用proc discrim过程步实现距离判别分析: proc discrim data=lmf.p84 distance lister; class RaD; var Wet PesT; run; 结果: 表8.16 The DISCRIM Procedure Total Sample Size 20 Variables Classes DF Total 19 ,2 DF Within Classes 18 2 DF Between Classes 1 由表8.16 判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。 表8.17 Class Level Information RaD Variable Frequency Weight Proportion Prior Name Probability 1 _1 2 _2 10 10 10.0000 0.500000 10.0000 0.500000 0.500000 0.500000 由表8.17各类别信息(Class Level Information)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(Prior Probability)为0.5、0.5。 表8.18 Pooled Covariance Matrix Information: Covariance Natural Log of the Matrix Rank Determinant of the Covariance Matrix 2 6.81587 表8.18 合并协方差矩阵信息(Pooled Covariance Matrix Information),协方差矩阵的秩(Covariance Matrix Rank)为2,协方差矩阵行列式的自然对数(Natural Log of the Determinant of the Covariance Matrix)为6.81587。 表8.19 Squared Distance to RaD: From RaD 1 2 0 1 2 1.30685 1.30685 0 (a) F Statistics, NDF=2, DDF=17 for Squared Distance to RaD From RaD 1 2 0 3.08561 (b) Prob > Mahalanobis Distance for Squared Distance to RaD From RaD 1 1 1.0000 2 0.0719 1 2 3.08561 0

2 0.0719 (c) 1.0000 Generalized Squared Distance to RaD From RaD 1 2 0 1.30685 1 2 1.30685 0 (d) 由表8.19 组间距离平方(Squared Distance to RaD)得知,两组间的距离平方(马氏距离)为1.30685,检验H0:μ1=μ2的F统计量为3.08561,p值为0.0719<0.1,说明雨天、非雨天有较显著的差异,判别归类具有一定意义。广义组间距离平方(Generalized Squared Distance to RaD)与组间的马氏距离平方相等。 表8.20 Linear Discriminant Function for RaD: Variable 1 2 -1.02533 -0.04553 0.22976 Constant -0.06870 Wet PesT 0.03251 0.05118 由表8.20得出线性判别函数: ?1?0.03251Wet?0.05118PesT?0.06870 ?2??0.04553Wet?0.22976PesT?1.02533 表8.21 Posterior Probability of Membership in RaD Posterior Probability of Membership in RaD Obs From RaD Classified into RaD 2 6 15 21 1 1 2 . 2 2 1 1 * * * * 1 2 0.1917 0.8083 0.3142 0.6858 0.7266 0.2734 0.7211 0.2789 * Misclassified observation 由表8.21组中成员的后验概率( Posterior Probability of Membership in RaD)得知,第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0.1917、0.8083;第6个观测值被误判为第一类雨天,根据线性判别函数得出第6个观测值在第一、二类的后验概率分别为0.3142、0.6858;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为0.7266、0.2734。并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第一类,为雨天。 表8.22 Number of Observations and Percent Classified into RaD: From RaD 1 1 8 80.00 2 2 20.00 Total 10 100.00 10 100.00 2 1 10.00 9 90.00 11 55.00 Total 9 45.00 20 100.00 Priors 0.5 0.5 由表8.22得知已知第一类雨天的样本被判别函数归入第一、二类的频数分别为8、2,百分比分别为80%、20%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。 表8.23 Error Count Estimates for RaD: 1 2 Total Rate 0.2000 0.1000 0.1500 Priors 0.5000 0.5000 由表8.23各类别的错误分类率( Error Count Estimates for RaD)得出第一类的错分率高,为20%,各类别的总错分率为0.15=0.2*0.5+0.1*0.5。 综上,利用距离判别法预报明天会下雨,误判概率为0.15。 ,x?(x,x)12②假定两组均服从二元正态分布,且根据其他信息及经验给出先验概率p1?0.3,p2?0.7,试用贝叶斯判别法预报明天是否下雨; ⑴利用proc discrim过程步实现Bayes判别分析: 预处理:由于两个总体的协方差矩阵不知道是否相等,因此我们利用语句pool=test确定两个总体的协方差矩阵的相等性。 proc discrim data=Lmf.p84 pool=test crosslist; class RaD; priors '1'=0.3 '2'=0.7; var Wet PesT; run; 结果: Chi-Square DF Pr>ChiSq 8.733528 3 0.0331 由于P值为0.0331<0.05,因此拒绝两正态总体相等的假设,因此两正态总体协方差矩阵不相等。 利用proc discrim过程步实现Bayes判别分析: OPTIONS PS=500; proc discrim data=Lmf.p84 pool=no crosslist; class RaD; priors '1'=0.3 '2'=0.7; var Wet PesT; run; 结果: 表8.24 The DISCRIM Procedure: Total Sample Size 20 Variables Classes DF Total 19 2 DF Within Classes 18 2 DF Between Classes 1 由表8.24判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。 表8.25 Class Level Information: RaD Variable Frequency Weight Proportion Prior Name Probability 1 _1 2 _2 10 10 10.0000 0.500000 10.0000 0.500000 0.300000 0.700000 由表8.25各类别信息(Class Level Information)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(Prior Probability)为0.3、0.7,由题目给出。 表8.26 Within Covariance Matrix Information: RaD Covariance Natural Log of the Matrix Rank Determinant of the Covariance Matrix 1 2 2 2 表8.26组内协方差矩阵信息(Within Covariance Matrix Information),协方差矩阵的秩(Covariance Matrix Rank)为2,协方差矩阵行列式的自然对数(Natural Log of the Determinant of the Covariance Matrix)分别为7.78344、4.74512。 表8.27 Generalized Squared Distance to RaD: Generalized Squared Distance to RaD From RaD 1 2 1 10.19139 11.05618 2 8.13871 5.45847 7.78344 4.74512 表8.27广义组间距离平方(Generalized Squared Distance to RaD)两两配对的组间平方距离为 D2(1|1)?10.19139,D2(1|2)?8.13871, D2(2|1)?11.05618,D2(2|2)?5.45847。 表8.28 Number of Observations and Percent Classified into RaD: Classification Summary for Calibration Data: LMF.P84 Resubstitution Summary using Quadratic Discriminant Function From RaD . 1 0 0.00 2 1 Total 1 100.00 100.00 4 1 6 10 100.00 60.00 40.00 2 0 0.00 10 10 100.00 100.00 15 Total 6 21 100.00 28.57 71.43 Priors 0.3 0.7 因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.28的结果,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为0、10,百分比分别为0%、100%。 表8.29 Error Count Estimates for RaD 1 2 Total Rate 0.4000 0.0000 0.1200 Priors 0.3000 0.7000 由表8.23各类别的错误分类率( Error Count Estimates for RaD)得出第一类的错分率高,为40%,各类别的总错分率为0.12=0.4*0.3+0*0.7。 表8.30 Posterior Probability of Membership in RaD Obs From RaD Classified into RaD 1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 2 2 * * * * 1 2 0.1781 0.8219 0.1893 0.8107 0.7196 0.2804 0.6518 0.3482 0.9713 0.0287 0.6017 0.3983 0.9973 0.0027 0.9997 0.0003 0.3289 0.6711 0.2220 0.7780

11 12 13 14 15 16 17 18 19 20 21 2 2 2 2 2 2 2 2 2 2 . 2 2 2 2 1 1 2 2 2 2 2 * * * 0.1009 0.8991 0.0779 0.9221 0.0859 0.9141 0.1609 0.8391 0.9269 0.0731 0.8183 0.1817 0.0574 0.9426 0.0786 0.9214 0.1718 0.8282 0.0779 0.9221 0.4090 0.5910 * Misclassified observation 由表8.30组中成员的后验概率( Posterior Probability of Membership in RaD)得知,第1个观测值被误判为第一类雨天,根据线性判别函数得出第1个观测值在第一、二类的后验概率分别为0.1781、0.8219;第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0.1893、0.8107;第9个观测值被误判为第一类雨天,根据线性判别函数得出第9个观测值在第一、二类的后验概率分别为0.3289、0.6711;第10个观测值被误判为第一类雨天,根据线性判别函数得出第10个观测值在第一、二类的后验概率分别为0.2220、0.7780;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为0.9269、0.0731;第16个观测值被误判为第二类非雨天,根据线性判别函数得出第16个观测值在第一、二类的后验概率分别为0.8183、0.1817。并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第二类,为非雨天。 表8.31 Number of Observations and Percent Classified into RaD: Classification Summary for Calibration Data: LMF.P84 Cross-validation Summary using Quadratic Discriminant Function From RaD . 1 0 0.00 2 1 Total 1 100.00 100.00 4 1 6 10 100.00 10 60.00 40.00 2 2 8 20.00 80.00 100.00 21 100.00 Total 8 13 38.10 61.90 Priors 0.3 0.7 利用交叉验证判别分类得出表8.31观察值频数及分类百分比(Number of Observations and Percent Classified into RaD),由表得知,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为2、8,百分比分别为20%、80%。 表8.32 Error Count Estimates for RaD: 1 2 Total Rate 0.4000 0.2000 0.2600 Priors 0.3000 0.7000 利用交叉验证判别分类得出表8.32各类别的错误分类率( Error Count Estimates for RaD),由表知第一类的错分率高,为40%,各类别的总错分率为0.26=0.4*0.3+0.2*0.7,综上,利用Bayes判别法预报明天不会下雨的误判概率为0.26。 与训练样本回带的判别分类结果相比,交叉验证的错分率明显增大,但交叉验证的分类结果更加真实和客观,在没有验证数据集时交叉验证的结果是评价判别函数的判别效能的重要指标。 ⑵由于错误分类率达到0.26,这可能与数据不符合参数法判别分析的条件有关,因此,接下来采用非参数法的判别分析方法:经过尝试,当k=4时,得出的错分率最低,效果最佳。 利用proc discrim过程步实现非参数判别: libname Lmf \; OPTIONS PS=500; proc discrim data=Lmf.p84 method=npar k=4 crosslist; class RaD; priors '1'=0.3 '2'=0.7; var Wet PesT; run; 表8.33 The DISCRIM Procedure Total Sample Size 20 DF Total 19 Variables Classes 2 DF Within Classes 18 2 DF Between Classes 1 由表8.33 判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为20,变量(Variables)个数为2,分类(Classes)个数为2及自由度。 表8.34 Class Level Information RaD Variable Frequency Weight Proportion Prior Name Probability 1 _1 2 _2 10 10 10.0000 0.500000 10.0000 0.500000 0.300000 0.700000 由表8.34各类别信息(Class Level Information)得知,第一、二类的样本数(Frequency)分别为10、10;两类别权重(Weight)分别为10、10;两类别分别占样本数(Proportion)的50%、50%,两类别的先验概率(Prior Probability)为0.3、0.7。 表8.35 Number of Observations and Percent Classified into RaD Classification Summary for Calibration Data: LMF.P84 Resubstitution Summary using 4 Nearest Neighbors From RaD . 1 1 2 0 Total 1 100.00 10 100.00 0.00 1 6 60.00 4 40.00 100.00 9 2 1 10.00 10 90.00 100.00 13 Total 8 38.10 21 61.90 100.00 0.7 Priors 0.3 因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.35的结果,第一类雨天的样本被判别函数归入第一、二类的频数分别为6、4,百分比分别为60%、40%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。 表8.36 Error Count Estimates for RaD 1 2 Total Rate 0.4000 0.1000 0.1900 Priors 0.3000 0.7000 由表8.36各类别的错误分类率( Error Count Estimates for RaD)得出第一类的错分率高,为40%,各类别的总错分率为0.19=0.4*0.3+0.1*0.7。 表8.37 Posterior Probability of Membership in RaD Classification Results for Calibration Data: LMF.P84 Cross-validation Results using 4 Nearest Neighbors Obs From RaD Classified into RaD 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 1 1 1 2 1 2 1 2 2 2 2 2 1 2 2 * * * * * * 1 2 0.1370 0.8630 0.0000 1.0000 0.5882 0.4118 0.5882 0.4118 0.5882 0.4118 0.1370 0.8630 0.5882 0.4118 0.3226 0.6774 0.5882 0.4118 0.1370 0.8630 0.2784 0.7216 0.0000 1.0000 0.0000 1.0000 0.1139 0.8861 1.0000 0.0000 0.1139 0.8861 0.0000 1.0000 18 19 20 21 2 2 2 . 2 2 2 2 * 0.1139 0.8861 0.1139 0.8861 0.1139 0.8861 0.3913 0.6087 * Misclassified observation 由表8.37组中成员的后验概率( Posterior Probability of Membership in RaD)得知,第1个观测值被误判为第一类雨天,根据线性判别函数得出第1个观测值在第一、二类的后验概率分别为0.1370、0.8630;第2个观测值被误判为第一类雨天,根据线性判别函数得出第2个观测值在第一、二类的后验概率分别为0、1;第6个观测值被误判为第一类雨天,根据线性判别函数得出第6个观测值在第一、二类的后验概率分别为0.1370、0.8630;第8个观测值被误判为第一类雨天,根据线性判别函数得出第8个观测值在第一、二类的后验概率分别为0.3226、0.6774。第10个观测值被误判为第一类雨天,根据线性判别函数得出第10个观测值在第一、二类的后验概率分别为0.1370、0.8630;第15个观测值被误判为第二类非雨天,根据线性判别函数得出第15个观测值在第一、二类的后验概率分别为1、0;并由此得到,当湿度差(Wet)为0.6,压温差(PesT)为0.3时,分为第二类,为非雨天。 表8.38 Number of Observations and Percent Classified into RaD Classification Summary for Calibration Data: LMF.P84 Cross-validation Summary using 4 Nearest Neighbors From RaD . 1 0 0.00 2 1 Total 1 100.00 100.00 5 1 5 10 100.00 10 100.00 50.00 50.00 2 1 9 10.00 90.00 Total 6 15 21 100.00 28.57 71.43 Priors 0.3 0.7 利用交叉验证判别分类得出表8.38观察值频数及分类百分比(Number of

Observations and Percent Classified into RaD),由表得知,第一类雨天的样本被判别函数归入第一、二类的频数分别为5、5,百分比分别为50%、50%;已知第二类非雨天的样本被判别函数归入第一、二类的频数分别为1、9,百分比分别为10%、90%。 表8.39 Error Count Estimates for RaD: 1 2 Total Rate 0.5000 0.1000 0.2200 Priors 0.3000 0.7000 利用交叉验证判别分类得出表8.39各类别的错误分类率( Error Count Estimates for RaD),由表知第一类的错分率高,为50%,各类别的总错分率为0.22=0.5*0.3+0.1*0.7,综上,利用Bayes判别法预报明天不会下雨的误判概率为0.22。 综上,利用Bayes判别分析,非参数法判别得出,明天不会下雨。 【练习8-5】对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练成绩:30m跑(x1)、投掷小球(x2)、挺举重量(x3)、抛实心球(x4)、前抛铅球(x5)、五级跳(x6),另14名未定级运动员也测试了6个项目,全部数据列于表中。 表 训练项目成绩 Num Group x1 x2 x3 x4 x5 x6 1 1 3.6 4.3 82.3 70 90 18.52 2 1 3.3 4.1 87.48 80 100 18.48 3 1 3.3 4.22 87.74 85 115 18.56 4 1 3.21 4.05 88.6 75 100 19.1 5 1 3.1 4.38 89.98 95 120 20.14 6 1 3.2 4.9 89.1 85 105 19.44 7 1 3.3 4.2 89 75 85 19.17 8 1 3.5 4.5 84.2 80 100 18.8 9 1 3.7 4.6 82.1 70 85 17.68 10 1 3.4 4.4 90.18 75 100 19.14 11 1 3.6 4.3 82.1 70 90 18.1 12 1 3.6 4.5 82 55 70 17.4 13 1 3.6 4.2 82.2 70 90 18.12 14 1 3.4 4.2 85.4 85 100 18.66 15 1 3.3 4.3 90.1 80 100 19.86 16 1 3.12 4.2 89 85 100 20 17 1 3.1 4.2 80.2 85 115 20.8 18 1 3.6 4.2 81.96 65 80 17.2 19 1 3.7 4.4 81 80 95 17 20 1 3.3 4.3 90 80 110 19.8 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3.8 3.7 3.5 3.4 3.3 3.7 3.6 3.2 3.4 3.3 3.1 3.8 3 3.9 3.5 3.1 3.3 3.1 3.14 3.6 3.12 3 3.4 3.63 3.3 3.3 3.5 3.4 3.6 3.1 3.12 3.6 3.5 3.5 3.4 3.6 3.6 3.2 3.4 3.6 3.1 3 3.2 4.09 4.3 4.2 4.1 4.1 4.1 4.3 4.2 4 4.5 4.5 4.1 4.2 3.7 4.1 3.9 3.9 3.95 3.9 4.3 3.9 3.9 3.91 3.78 3.98 4.4 4.1 4.2 4.1 4.4 4 4.1 4.3 4.1 4.4 4.3 4.1 4.1 4.15 4.2 4.1 4.1 4.3 80 83.9 85.4 86.7 88.1 84.1 82 89.2 103 118 105 104.53 112 98.2 98.7 98.2 109 98.4 95.3 93.6 95.8 93.8 96.3 98.56 97.4 112 107.7 92.1 99.48 116 102.7 115 97.8 85.3 85.4 85.36 8307 89.35 86.28 84.1 98 122 92.68 60 85 85 85 75 70 70 85 95 90 85 80 95 85 90 60 100 95 90 75 80 85 110 85 85 75 87.5 80 85 75 80 85 75 75 75 75 75 75 60 80 95 100 80 80 100 100 110 85 95 90 115 110 120 110 100 125 90 120 90 120 115 110 85 105 90 120 120 100 110 110 120 120 110 110 115 100 105 95 90 105 95 77.5 100 130 115 105 16.89 18.76 18.7 18.5 18.96 18.7 18.4 19.88 24.8 25.7 25.1 24.98 25.35 21.8 22.78 21.98 25.3 25.2 21.42 20.84 21.8 21.08 21.98 22.36 22.34 25.1 25.1 22.16 23.1 25.3 24.68 23.7 24.1 18.65 18.6 18.6 18.6 20.28 18.9 18.7 22.3 27.1 20.68 64 3.1 4.2 91.76 85 100 22.2 65 3.3 4.2 98.4 65 100 22.86 66 3.3 4.6 92 80 195 23.07 67 3.4 4.3 97.36 75 110 22.12 假定两组数据均来自于多元正态总体,且C(1|2)=C(2|1)(其中C(i|j)为假定本来属于Gi的样品被判为属于Gj时造成的损失)。 ①对14名未定级运动员,假设先验概率p1=p2,试在Σ1=Σ2=Σ和Σ1≠Σ2的两种情形下分别对他们归属何组作出Bayes判别; ②试对①的误判概率作出估计; ③假设Σ1=Σ2=Σ,p1=0.8,p2=0.2,试对着14名未定级运动员的归属做Bayes判别。 【解答】 ①对14名未定级运动员,假设先验概率p1=p2,试在Σ1=Σ2=Σ和Σ1≠Σ2的两种情形下分别对他们归属何组作出Bayes判别; ⑴当Σ1=Σ2=Σ时: 利用proc discrim过程步实现Bayes判别分析: libname Lmf \; proc discrim data=Lmf.p85 pool=yes crosslist; class Group; priors equal; var x1 x2 x3 x4 x5 x6; run; 结果: 表8.40 The DISCRIM Procedure: Total Sample Size 53 Variables Classes DF Total 52 6 DF Within Classes 51 2 DF Between Classes 1 由表8.40判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为53,变量(Variables)个数为6,分类(Classes)个数为2及自由度。 表8.41 Class Level Information: Group Variable Frequency Weight Proportion Prior Name Probability 1 2 _1 _2 28 25 28.0000 0.528302 25.0000 0.471698 0.500000 0.500000 由表8.41各类别信息(Class Level Information)得知,第一、二类的样本数(Frequency)分别为28、25;两类别权重(Weight)分别为28、25;两类别分别占样本数(Proportion)的52.8302%、47.1698%,两类别的先验概率(Prior Probability)为0.5、0.5。 表8.42 Pooled Covariance Matrix Information Covariance Natural Log of the Matrix Rank Determinant of the Covariance Matrix 6 表8.42合并协方差矩阵信息(Pooled Covariance Matrix Information),协方差矩阵的秩(Covariance Matrix Rank)为6,协方差矩阵行列式的自然对数(Natural Log of the Determinant of the Covariance Matrix)为4.90654。 表8.43 Generalized Squared Distance to Group: From Group 1 2 由表8.43广义组间距离平方(Generalized Squared Distance to RaD)知,广义组间距离平方与组间的马氏距离平方相等,为21.81939。 表8.44 Linear Discriminant Function for Group: Variable Label Constant x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6 1 2 0 1 2 21.81939 4.90654 21.81939 0 -562.18224 -605.39869 110.73670 115.69677 99.27029 0.84309 1.53525 -0.10404 7.41196 85.61780 1.02903 1.54102 -0.23674 11.16207 由表8.44得出线性判别函数: y1?110.73670x1?99.27029x2?0.84309x3?1.53525x4?0.10404x5?7.41196x6?562.18224 y2?115.69677x1?85.61780x2?1.02903x3?1.54102x4?0.23674x5?11.16207x6?605.39869 表8.45 Number of Observations and Percent Classified into Group Classification Summary for Calibration Data: LMF.P85 Resubstitution Summary using Linear Discriminant Function From Group . 1 8 57.14 2 6 42.86 Total 14 100.00 28 100.00 1 28 0 100.00 0.00 2 0 0.00 25 25 100.00 100.00 31 46.27 Total 36 53.73 67 100.00 Priors 0.5 0.5 因在正态总体的情况下,按Bayes判别的思想,在错判造成的损失认为相等的情况下得到的判别函数相当于马氏距离判别在考虑先验概率及协方差阵相等情况下的推广,因此得出表8.45的结果,第一类一级的样本被判别函数归入第一、二类的频数分别为28、0,百分比分别为100%、0%;已知第二类健将级的样本被判别函数归入第一、二类的频数分别为0、25,百分比分别为0%、100%。 表8.46 Error Count Estimates for Group 1 2 Total Rate 0.0000 0.0000 0.0000 Priors 0.5000 0.5000 由表8.46各类别的错误分类率( Error Count Estimates for RaD)得知错误分类率为0。 表8.47 Posterior Probability of Membership in Group: Classification Results for Calibration Data: LMF.P85 Cross-validation Results using Linear Discriminant Function Obs From Group Classified into Group 1 2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1.0000 0.0000 0.9999 0.0001 1.0000 0.0000 0.9989 0.0011 1.0000 0.0000 1.0000 0.0000 0.9977 0.0023 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 0.9991 0.0009 0.9973 0.0027 0.9923 0.0077 1.0000 0.0000 1.0000 0.0000 0.9998 0.0002 1.0000 0.0000 1.0000 0.0000 0.9999 0.0001 1.0000 0.0000 0.9963 0.0037 0.9989 0.0011 1.0000 0.0000 0.9996 0.0004 0.0000 1.0000 0.0000 1.0000 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 . . . . . . . 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 1 1 1 2 1 1 1 * * * * * * * * * 0.0001 0.9999 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.0022 0.9978 0.0023 0.9977 0.0000 1.0000 0.0000 1.0000 0.0903 0.9097 0.7013 0.2987 0.0114 0.9886 0.3584 0.6416 0.0457 0.9543 0.0001 0.9999 0.0005 0.9995 0.0000 1.0000 0.0000 1.0000 0.8277 0.1723 0.0004 0.9996 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 1.0000 0.9999 0.0001 1.0000 0.0000 1.0000 0.0000 0.0000 1.0000 0.9442 0.0558 0.9976 0.0024 0.9999 0.0001 61 62 63 64 65 66 67 . . . . . . . 2 2 1 2 2 1 2 * * * * * * * 0.2091 0.7909 0.0000 1.0000 0.9913 0.0087 0.0868 0.9132 0.0010 0.9990 1.0000 0.0000 0.1379 0.8621 * Misclassified observation 由表8.47组中成员的后验概率( Posterior Probability of Membership in RaD)得知,第40个观测值被误判为第二类健将级,根据线性判别函数得出第40个观测值在第一、二类的后验概率分别为0.7013、0.2987;第48个观测值被误判为第二类健将级,根据线性判别函数得出第48个观测值在第一、二类的后验概率分别为0.8277、0.1723。并由线性判别函数得到,未定级的第54到67名运动员分别为一级、一级、一级、健将级、一级、一级、一级、健将级、健将级、一级、健将级、健将级、一级、健将级。 表8.48 Number of Observations and Percent Classified into Group Classification Summary for Calibration Data: LMF.P85 Cross-validation Summary using Linear Discriminant Function Number of Observations and Percent Classified into Group From Group . 1 8 57.14 2 6 Total 14 42.86 100.00 0 1 28 28 100.00 25 100.00 0.00 2 2 8.00 23 92.00 100.00 29 Total 38 56.72 67 43.28 100.00 0.5 Priors 0.5 利用交叉验证判别分类得出表8.48观察值频数及分类百分比(Number of Observations and Percent Classified into RaD),由表得知,第一类一级的样本被判别函数归入第一、二类的频数分别为28、0,百分比分别为100%、0%;已知第二类健将级的样本被判别函数归入第一、二类的频数分别为2、23,百分比分别为8%、92%。 综上,利用Bayes判别法得出未定级的第54到67名运动员分别为一级、一级、一级、健将级、一级、一级、一级、健将级、健将级、一级、健将级、健将级、一级、健将级。 ⑵当Σ1≠Σ2时: 利用proc discrim过程步实现Bayes判别分析: proc discrim data=Lmf.p85 pool=no crosslist; class Group; priors equal; var x1 x2 x3 x4 x5 x6; run; 结果:(由于简单信息与上述⑴过程中相等,因此不再列出。) 表8.49 Within Covariance Matrix Information Group Covariance Natural Log of the Matrix Rank Determinant of the Covariance Matrix 1 2 表8.49组内协方差矩阵信息(Within Covariance Matrix Information),协方差矩阵的秩(Covariance Matrix Rank)为6,协方差矩阵行列式的自然对数(Natural Log of the Determinant of the Covariance Matrix)分别为0.90637、6.42369。 表4.50 Generalized Squared Distance to Group From Group 1 2 1 0.90637 2 23.55603 6 6 0.90637 6.42369 122.36031 6.42369 表8.50广义组间距离平方(Generalized Squared Distance to RaD)两两配对的组间平方距离为 D2(1|1)?0.90637,D2(1|2)?23.55603, 2D2(2|1)?122.36031D,(2|2)?6.42369。 表8.51 Posterior Probability of Membership in Group Classification Results for Calibration Data: LMF.P85 Cross-validation Results using Quadratic Discriminant Function Obs From Group Classified into Group 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 * 1 2 1.0000 0.0000 0.9996 0.0004 0.9997 0.0003 0.9937 0.0063 1.0000 0.0000 1.0000 0.0000 0.9934 0.0066 1.0000 0.0000 1.0000 0.0000 0.9998 0.0002 1.0000 0.0000 1.0000 0.0000 1.0000 0.0000 0.9999 0.0001 0.9984 0.0016 0.9929 0.0071 0.0000 1.0000 1.0000 0.0000 1.0000 0.0000 0.9981 0.0019 1.0000 0.0000 0.9966 0.0034 0.9999 0.0001 0.9998 0.0002 0.9854 0.0146 0.9837 0.0163 1.0000 0.0000

本文来源:https://www.bwwdw.com/article/mit6.html

Top