数据分析实验报告

更新时间:2024-06-09 00:01:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实验一 SAS系统的使用

【实验目的】

使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。 【实验内容】

1. 将SCORE数据集的内容复制到一个临时数据集test。

SCORE数据集

Name Alice Tom Jenny Mike Fred Kate Alex Cook Bennie Hellen Wincelet Butt Geoge Tod Chris Janet Sex f m f m m f m m f f f m m m f f Math 90 95 93 80 84 97 92 75 82 85 90 77 86 89 89 86 Chinese 85 87 90 85 85 83 90 78 79 74 82 81 85 84 84 65 English 91 84 83 80 89 82 91 76 84 84 87 79 82 84 87 87 2.将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。

3.将2题中得到的good,normal,bad数据集合并。

【实验所使用的仪器设备与软件平台】

台式电脑,SAS软件 【实验方法或步骤】

1.SAS系统的启动:2种方法 1)双击桌面上的SAS快捷方式;

2)单击屏幕左下角的“开始”菜单,在菜单中选择“程序”,在程序中选择The SAS System,最后选择The SAS System for Windows V8。 2.数据的输入与输出

1)在SAS程序窗口下,直接输入数据以建立一个SAS数据集,其基本语句形式为: DATA name; INPUT variables; CARDS; data lines ; 输出数据集的内容,可用 PROC PRINT DATA=name; 2)将其他格式的数据文件导入数据集.

3.能够利用已有的SAS数据集建立新的SAS数据集 1)两个数据集的合并

两数据集的串接:将A和B两个数据集串接成为一个名为“name”的新的SAS数据集. DATA name; SET A B; 两数据集的并接:若两个数据集的数据行数(即观测向量个数)相同且按相同顺序排列,可将两数据集并接以形成新的SAS数据集,其中数据集中变量的个数为原两数据集中的变量个数之和. DATA name; MERGE A B; 2)两个数据集的复制 DATA A;/A为新的数据集/ SET B;/B为要复制的数据集名/ KEEP variables;/希望保留的变量名/ DROP variables;/希望去掉的变量名/ 3)两个数据集的拆分 示例:将记录学生成绩的//数据集按性别分成两个数据集,即一个记录男生的成绩,一个记录女生的成绩。程序如下:

Data scorem scoref; Set sasuser.score; Select (sex);

When (?m?) output scorem;

When (?f?) output scoref;

End;

Run;

data a1 a2; set a; select ;

when (x1>90) output a1; when (x1=<90) output a2; end;

run;

【实验程序】

DATA SCORE;

INPUT NAME $ Sex $ Math Chinese English; CARDS; Alice Jenny Mike Fred Kate Alex Cook

f 90 85 91 f 93 90 83 m 80 85 80 m 84 85 89 f 97 83 82 m 92 90 91 m 75 78 76 f 82 79 84 f 85 74 84 m 77 81 79 m 86 85 82 m 89 84 84 f 89 84 87 f 86 65 87

Tom m 95 87 84

Bennie Hellen Butt Tod

Wincelet f 90 82 87 Geoge Chris Janet ;

Run;

PROC PRINT DATA=SCORE; DATA text; SET SCORE;

DATA good normal bad; SET SCORE; SELECT;

when(math>=90) when(math<80) end; Run;

PROC PRINT DATA=good; PROC PRINT DATA=normal; PROC PRINT DATA=bad; DATA ALL;

SET good normal bad; PROC PRINT DATA=ALL; Run;

output good;

when(math>=80&math<90) output normal;

output bad;

【实验结果】

1. 将SCORE数据集的内容复制到一个临时数据集test

2.将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。

1) math大于等于90的到good数据集:

2) math在80到89之间的到normal数据集:

3) math在80以下的到bad数据集:

3.将2题中得到的good,normal,bad数据集合并:

【结果分析与讨论】

实验二 上市公司的数据分析

【实验目的】

通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。 【实验内容】

表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(price)

表2 某上市公司的数据表

代码 000096 000099 000150 000151 000153 000155 000156 000157 000158 000159 000301 000488 000725 000835 000869 000877 000885 000890 000892 000897 000900 000901 000902 000903 000905 000906 000908 000909 流通盘 8500 6000 12600 10500 2500 13000 3600 10000 10000 7000 15365 7700 6000 1338 3200 7800 6000 16934 12000 14166 21423 4800 6500 6000 9500 6650 8988 6000 每股收益 0.059 0.028 -0.003 0.026 0.056 -0.009 0.033 0.06 0.018 0.008 0.04 0.101 0.044 0.07 0.194 -0.084 -0.073 0.031 0.031 0.002 0.058 0.005 -0.031 0.109 0.046 0.007 0.006 0.002 股票价格 13.27 14.2 7.12 10.08 22.75 6.85 14.95 12.65 8.38 12.15 7.31 13.26 12.33 22.58 18.29 12.55 12.48 9.12 7.88 6.91 8.59 27.95 10.92 11.79 9.29 14.47 8.28 9.99 000910 000911 000912 000913 000915 000916 000917 000918 8000 7280 15000 8450 4599 34000 11800 6000 0.036 0.067 0.112 0.062 0.001 0.038 0.086 -0.045 8.9 9.01 8.06 11.86 14.4 5.15 16.23 10.12 1、对股票价格

1)计算均值、方差、标准差、变异系数、偏度、峰度; 2)计算中位数,上、下四分位 数,四分位极差,三均值; 3)作出直方图; 4)作出茎叶图;

5)进行正态性检验(正态W检验); 6)计算协方差矩阵,Pearson相关矩阵; 7)计算Spearman相关矩阵; 8)分析各指标间的相关性。

2、1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;

2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;

?,X,X及XX的残差图及残差的正态QQ图。分析 3)拟合残差关于拟合值Y1212这些残差,并予以评述。

【实验所使用的仪器设备与软件平台】

台式电脑,SAS软件 【实验方法或步骤】

1、数据描述性分析SAS程序的主要语句形式 1)PROC MEANS过程

PROC MEANS options; VAR variables;/指出数据集中要计算的变量名称(应是数值变量)/ OUTPUT OUT=SAS data set keyword=name ?; /建立一个由PROC MEANS过程的分析结果构成的SAS数据集/ 其中“options”包含下列内容的部分或全部:

a. DATA=SAS data set:指明所要分析的SAS数据集名称.若省略此选项,则对最新建立的数据集作分析.

b. MAXDEC=k:其中k为介于0与8之间的一个正整数,该选项指明在输出数据时小数点后保留k位.

c. 关键词:逐个列出要计算其值的统计量名称的关键词,最常用的有N(变量的观测值个数)、MEAN(均值)、STD(标准差)、VAR(方差)、MIN(各变量观测值的最小值)、MAX(各变量观测值的最大值)、RANGE(极差)、SUM(总和)、USS(平方和)、CSS(中心化平方和)、SKEWNESS(偏度)、KURTOSIS(峰度)、T(对每个变量的均值是否为零进行双边t检验)、PRT(双边的p值). 2)PROC UNIVARIATE 过程 PROC UNIVARIATE options; PLOT variable1; OUTPUT OUT=SAS data set keyword=name ?; 其中“options”包含下列内容的部分或全部:

a. DATA=SAS data set:指明所要分析的SAS数据集名称.

b. PLOT:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图.若某区间的观测值超过48,则不绘制茎叶图,而改绘水平直方图,在正态QQ图中,以“*”号标示正态QQ图上的点,以“+”标示相应的参考直线.

c. FREQ:要求生成包括变量值、频数、百分数和累计百分数的表.

d. NORMAL:要求对分析的各变量的观测值是否来自正态分布总体做检验,并输出检验的p值. 3)PROC CORR 过程

PROC CORR options; VAR variables; WITH variables; 其中“options”包含下列内容的部分或全部:

a. DATA=SAS data set:指明所要分析的SAS数据集名称. b. PEARSON:要求输出Pearson相关系数矩阵(为默认输出结果). c. SPEARMAN:要求输出Spearman秩相关系数矩阵. d. COV:要求计算协方差矩阵.

e. NOSIMPLE:指明不输出每个变量的简单描述性统计量的值.

VAR variables:该语句指出要计算相关系数矩阵或协方差阵的变量名称,可以是数据集中数值变量的一部分.

WITH variables:此语句和“VAR variables”语句合用,可以得到变量间特殊组合的相关系数矩阵,即“VAR”后的各变量与“WITH”后的各变量间的相关系数矩阵。

2、回归分析过程的主要语句形式 PROC REG options; MODEL dependent=regressors/options; OUTPUT OUT=SAS data set keyword=names ?; 1) PROC REG options;

“options”部分应指出要分析的SAS数据集;

2)关键词“MODEL”之后,应指明因变量,等号之后依次列出回归变量,options包括

a. SELECTION=name, 其中“name”可以是FORWARD(向前选择最优模型方法),BACKWORD(向后删除法),STEPWISE(逐步回归法),RSQUARE(利

22用Rp准则选取最优模型的方法),ADJRSQ(即利用修正的Rp准则选择最优模型

法),CP(利用Cp准则选择最优模型法); b. 对模型选取细节的选项:

DETAILS:此选项仅对最优模型选取方法中的FORWARD、BACKWORD、STEPWISE有效,它要求打印出每一步引入和删除的自变量及相关信息;

NOINT取消回归模型的常数项,拟合过原点的回归方程; c. 对估计细节内容的选择:

CORRB:打印出估计的参数的相关系数矩阵; COVB:打印出估计的参数的协方差矩阵; P:打印出因变量的拟合值;

R:打印出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差及Cook距离。

3) OUTPUT OUT=SAS data set keyword=names ?;

此语句除包含所分析的原SAS数据集的全部内容外,keyword后可以指定下列的一些或全部内容: P=name:因变量的拟合值 R=name: 残差

STUDENT=name: 标准化残差

L95M=name: 因变量的期望值的95%置信区间的置信下限 U95M=name: 因变量的期望值的95%置信区间的置信上限 L95=name: 因变量真值的95%置信区间的置信下限 U95=name: 因变量真值的95%置信区间的置信上限 COOK=name: Cook距离,用以影响性分析的统计量 H=name: 杠杆量,即xi(XTX)-1xiT,xi是设计矩阵X的第i行 PRESS=name: 用以估计第i组观测值对拟合值的影响 DFFITS=name: 用以估计第i组观测值对参数估计的影响 【实验程序】

data price; input x @@; cards;

13.27 14.2 7.12 10.08 22.75 6.85 14.95 12.65 8.38 12.15 7.31 13.26 12.33 22.58 18.29 12.55 12.48 9.12 7.88 6.91 8.59 27.95 10.92 11.79 9.29 14.47 8.28 9.99 8.9 9.01 8.06 11.86 14.4 5.15 16.23 10.12 ;

proc print data=price;

run;

proc means mean var std cv skewness kurtosis; var x; run;

proc univariate plot normal; run;

proc capability graphics; histogram x/normal; run;

【实验结果】

1、对股票价格

1)计算均值、方差、标准差、变异系数、偏度、峰度;

股票价格的均值为11.9477778、方差为23.7675143、标准差为4.8751938、变异系数为40.8041891、偏度为1.5160302、峰度为2.7205929 2)计算中位数,上、下四分位数,四分位极差,三均值; 由proc univariate过程得:

所以,股票价格的中位数为:M=11.355,、上四分位数Q3=13.735、下四分位数Q1=8.485、四分位极差为:R1=Q3-Q1=5.25、三均值:

?=1/4*Q1+1/2*M+1/4*Q3=11.2325. M

3)作出直方图;

由proc capability过程得

40353025Percent20151050261014182226xCurve:Normal(Mu=11.948 Sigma=4.8752) 4)作出茎叶图;

由proc univariate过程得:

5)进行正态性检验(正态W检验);

有proc uniwariate过程,算得:

W=0.872266

P值为:

p?p{W?0.872266}?0.0006

取?=0.05,因p=0.0006<0.05,故拒绝正态性假设 6)计算协方差矩阵,Pearson相关矩阵; 程序如下:

data a1;

input eps scale price; cards; 8500 6000

0.059 13.27 0.028 14.2

12600 -0.003 7.12 10500 0.026 10.08 2500 3600

0.056 22.75 0.033 14.95

12.65

13000 -0.009 6.85 10000 0.06 7000 7700 6000 1338 3200 7800 6000

10000 0.018 8.38

0.008 12.15

7.31

0.101 13.26 0.044 12.33 0.07

22.58

0.194 18.29 -0.084 12.55 -0.073 12.48

15365 0.04

16934 0.031 9.12 12000 0.031 7.88 14166 0.002 6.91 21423 0.058 8.59 4800

0.005 27.95

6500 -0.031 10.92 6000 0.109 11.79 9500 0.046 9.29 6650 0.007 14.47 8988 0.006 8.28 6000 0.002 9.99 8000 0.036 8.9 7280 0.067 9.01 15000 0.112 8.06

8450 0.062 11.86 4599

0.001 14.4

34000 0.038 5.15 11800 0.086 16.23 6000 -0.045 10.12

;

proc corr data=a1 cov peardon spearman; var eps scale price; with eps scale price; run;

由proc corr过程得: 协方差矩阵:

Pearson相关矩阵:

7)计算Spearman相关矩阵:

8)分析各指标间的相关性: 均值

1nx??xi

ni?11nS?(xi?x)2 ?n?1i?12方差

标准差: 变异系数:

S?S2 CV?100?S(%) x峰度:

n(n?1)g2?(n?1)(n?2)(n?3)S42(n?1)2(xi?x)?3?(n?2)(n?3)i?1n42?n(n?1)u4(n?1)?3(n?1)(n?2)(n?3)S4(n?2)(n?3)

偏度:

nn2u3n3 g1?(xi?x)?3?3(n?1)(n?2)Si?1(n?1)(n?2)S2、程序如下:

data hzp; input x1 x2 y; cards; 8500 6000

0.059 13.27 0.028 14.2

12600 -0.003 7.12 10500 0.026 10.08 2500 3600

0.056 22.75 0.033 14.95

12.65

13000 -0.009 6.85 10000 0.06

10000 0.018 8.38 7000 7700 6000 1338 3200 7800 6000

0.008 12.15

7.31

0.101 13.26 0.044 12.33 0.07

22.58

0.194 18.29 -0.084 12.55 -0.073 12.48

15365 0.04

16934 0.031 9.12 12000 0.031 7.88 14166 0.002 6.91 21423 0.058 8.59 4800 6500 6000 9500 6650 8988 6000 8000 7280 8450 4599

0.005 27.95 -0.031 10.92 0.109 11.79 0.046 9.29 0.007 14.47 0.006 8.28 0.002 9.99 0.036 8.9 0.067 9.01 0.062 11.86 0.001 14.4

15000 0.112 8.06

34000 0.038 5.15 11800 0.086 16.23 6000 ;

proc print; run;

proc reg data=hzp; model y=x1 x2;

output out=a p=p r=r student=stdr; proc print data=a; run;

proc gplot data=a;

plot x1*r=1 x2*r=2 y*r=3; run;

proc capability data=a graphics; qqplot r/normal; run;

-0.045 10.12

1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;

设Y与X1,X2,X3的观测值之间满足关系:

yi??0??1xi1??2xi2??3xi3??i(i?1,2,......,36)

其中?i(i?1,2,......,36)相互独立,均服从正太分布N(0,?2) 方差分析输出结果:

参数估计输出结果:

其中r为残差。

2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;

由上述结果知道:

MSE=14.53508,MSR=176.10269.检验假设:

H0:?1??2?0???H1:?1,?2至少有一个非零

的统计量F=MSR/MSE的F0=12.12,检验的P值为0.0001,则Y与X1,X2的线性回归关系是高度显著地。若α=0.05,Y与X1,X2的线性回归关系是高度显著地。

?,X,X及XX的残差图及残差的正态QQ图。分析这些3)拟合残差关于拟合值Y1212残差,并予以评述。

?,X,X及XX的残差图: 拟合值Y121240000x13000020000100000-5-4-3-2-10123456789101112131415Residual 0.200.190.180.170.160.150.140.130.120.110.100.090.080.070.060.050.040.030.020.010.00-0.01-0.02-0.03-0.04-0.05-0.06-0.07-0.08-0.09-5-4-3-2-10123456789101112131415x2Residual 30y20100-5-4-3-2-10123456789101112131415Residual 残差的正态QQ图:

1510Residual50-5-3-2-10123正态分位数 【结果分析与讨论】

实验三 美国50个州七种犯罪比率的数据分析

【实验目的】通过使用SAS软件对实验数据进行主成分分析,熟悉数据分析方

法,培养学生分析处理实际数据的综合能力。

【实验内容】表3给出的是美国50个州每100 000个人中七种犯罪的比率数

据。这七种犯罪是:Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault(斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。

表3 美国50个州七种犯罪的比率数据

State Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada Murder 14.2 10.8 9.5 8.8 11.5 6.3 4.2 6.0 10.2 11.7 7.2 5.5 9.9 7.4 2.3 6.6 10.1 15.5 2.4 8.0 3.1 9.3 2.7 14.3 9.6 5.4 3.9 15.8 Rape 25.2 51.6 34.2 27.6 49.4 42.0 16.8 24.9 39.6 31.1 25.5 19.4 21.8 26.5 10.6 22.0 19.1 30.9 13.5 34.8 20.8 38.9 19.5 19.6 28.3 16.7 18.1 49.1 Robbery 96.8 96.8 138.2 83.2 287.0 170.7 129.5 157.0 187.9 140.5 128.0 39.6 211.3 123.2 41.2 100.7 81.1 142.9 38.7 292.1 169.1 261.9 85.9 65.7 189.0 39.2 64.7 323.1 Assault 278.3 284.0 312.3 203.4 358.0 292.9 131.8 194.2 449.1 256.5 64.1 172.5 209.0 153.5 89.8 180.5 123.3 335.5 170.0 358.9 231.6 274.6 85.8 189.1 233.5 156.8 112.7 355.0 Burglary 1135.5 1331.7 2346.1 972.6 2139.4 1935.2 1346.0 1682.6 1859.9 1351.1 1911.5 1050.8 1085.0 1086.2 812.5 1270.4 872.2 1165.5 1253.1 1400.0 1532.2 1522.7 1134.7 915.6 1318.3 804.9 760.0 2453.1 Larceny 1881.9 3369.8 4467.4 1862.1 3499.8 3903.2 2620.7 3678.4 3840.5 2170.2 3920.4 2599.6 2828.5 2498.7 2685.1 2739.3 1662.1 2469.9 2350.7 3177.7 2311.3 3159.0 2559.3 1239.9 2424.2 2773.2 2316.1 4212.6 Auto 280.7 753.3 439.5 183.4 663.5 477.1 593.2 467.0 351.4 297.9 489.4 237.6 528.6 377.4 219.9 244.3 245.4 337.7 246.9 428.5 1140.1 545.5 343.1 144.4 378.4 309.2 249.1 559.2 New Hampshire New Jersey New Mexico New York North Carolina Ohio North Dakota Oklahoma Oregon Pennsylvania Rhode Island South Carolina South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming 3.2 5.6 8.8 10.7 10.6 7.8 0.9 8.6 4.9 5.6 3.6 11.9 2.0 10.1 13.3 3.5 1.4 9.0 4.3 6.0 2.8 5.4 10.7 21.0 39.1 29.4 17.0 27.3 9.0 29.2 39.9 19.0 10.5 33.0 13.5 29.7 33.8 20.3 15.9 23.3 39.6 13.2 12.9 21.9 23.2 180.4 109.6 472.6 61.3 190.5 13.3 73.8 124.1 130.3 86.5 105.9 17.9 145.8 152.4 68.8 30.8 92.1 106.2 42.2 52.2 39.7 76.0 185.1 343.4 319.1 318.3 181.1 43.8 205.0 286.9 128.0 201.0 485.3 155.7 203.9 208.2 147.3 101.2 165.7 224.8 90.9 63.7 173.9 1041.7 1435.8 1418.7 1728.0 1154.1 1216.0 446.1 1288.2 1636.4 877.5 1489.5 1613.6 570.5 1259.7 1603.1 1171.6 1348.2 986.2 1605.6 597.4 846.9 811.6 2343.9 2774.5 3008.6 2782.0 2037.8 2696.8 1843.0 2228.1 35061 1624.1 2844.1 2342.4 1704.4 1776.5 2988.7 3004.6 2201.0 2521.2 3386.9 1341.7 2614.2 2772.2 293.4 511.5 259.5 745.8 192.1 400.4 144.7 326.8 388.9 333.2 791.4 245.1 147.5 314.0 397.6 334.5 265.2 226.7 360.3 163.3 220.7 282.0 1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差

异?

2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。

3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。 2、从样本相关矩阵出发,做因子分析。 【实验前的预备知识】

1、1)总体主成分的定义、求法、性质和标准化变量的主成分; 2)样本主成分。

2、1)因子分析的原理及求法; 2)因子分析的性质。

【实验方法或步骤】

1、主成分分析过程的主要语句形式为: PROC PRINCOMP options; VAR variables; (1)PROC PRINCOMP options;

此语句意味着执行主成分分析,其中的“options”可包括以下内容的部分或全部:

①DATA=SAS data set:指出要分析的SAS数据集名称.这个数据集可以是原始观测值的SAS数据集,也可以是相关矩阵或协方差矩阵.若是后者,需要在数据集名称后加上“(TYPE=CORR)”或“(TYPE=COV)”.若省略数据集选项,则自动使用最新建立的SAS数据集.

②OUT=SAS data set:命名一个输出的SAS数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值).

⑧OUTSTAT=SAS data set:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出SAS数据集.

④COVARIANCE(或COV):要求从协方差矩阵出发作主成分分析.若省略此选项,则从相关矩阵出发进行分析.除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析. ⑤N=n:指定要计算的主成分个数“n”.其默认值为参与分析的变量个数. ⑥PREFIX=name:规定各主成分的名称的前缀.省略此句则SAS系统自动赋予各主成分名称分别为PRIN1,PRIN2,?.若“name=A”,则各主成分名称分别为A1,A2,?.前缀的字符个数加上后面数字位数应不超过8个字符. (2)VAR variables;

此语句中的“variables”部分列出数据集中参与主成分分析的变量名称.若省略此句,则被分析数据集中所有数值变量均参与分析. 2、

因子分析过程的主要语句形式为:

PROC FACTOR DATA=SAS data set options; VAR variables; RUN; “options”语句包括:

1)提取公因子的方法:METHOD=PRINCIPAL(主成分分析法),PRINIT(迭代主成分分析法),ML(极大似然法)

2)给公因子方差赋初值:PRIORS=ASMC(置方差sii2正比于xi与其它之间的全部相

关系数的平方),MAX(置sii为xi与其它指标中某一个的最大绝对相关系数),ONE(置所有的sii为1),SMC(置sii为xi与其它指标之间的全相关系数的平方)

2223) 因子旋转方法:ROTATE=VARIMAX(最大方差旋转法),ORTHOMAX(正交最大方

差旋转法),PROMAX(在最大方差旋转的基础上进行斜交旋转)

4)计算因子得分模型中的系数,记作SCORE。

【实验程序】

data a;

input State$ Murder Rape Robbery Assault Burglary Larceny Auto; cards; Alabama Arizona

14.2

25.2

96.8

278.3 1135.5 1881.9 280.7

Alaska 10.8

51.6

96.8 83.2

284.0 1331.7 3369.8 753.3 203.4 972.6 1862.1 183.4

9.5 34.2 138.2 312.3 2346.1 4467.4 439.5

287.0 358.0 2139.4 3499.8 663.5 129.5 131.8 1346.0 2620.7 593.2 187.9 449.1 1859.9 3840.5 351.4 140.5 256.5 1351.1 2170.2 297.9

1911.5 3920.4 489.4

172.5 1050.8 2599.6 237.6

Arkansas 8.8 27.6 California 11.5 Connecticut Florida Georgia

Colorado 6.3 42.0 Delaware 6.0 24.9

10.2 11.7

49.4

170.7 292.9 1935.2 3903.2 477.1 157.0 194.2 1682.6 3678.4 467.0

4.2 16.8

39.6 31.1 39.6

Hawaii 7.2 25.5 Idaho 5.5 19.4 Indiana Iowa

128.0 64.1

Illinois 9.9 21.8

7.4 26.5 2.3 10.6

211.3 209.0 1085.0 2828.5 528.6 123.2 153.5 1086.2 2498.7 377.4

89.8 81.1

812.5 2685.1 219.9

123.3 872.2 1662.1 245.4

41.2 19.1 30.9 38.7

Kansas 6.6 22.0 Kentucky 10.1 Louisiana 15.5 Maine 2.4 13.5

100.7 180.5 1270.4 2739.3 244.3

142.9 335.5 1165.5 2469.9 337.7 170.0 1253.1 2350.7 246.9

169.1 231.6 1532.2 2311.3 1140.1

85.8 65.7

1134.7 2559.3 343.1

189.1 915.6 1239.9 144.4

Maryland 8.0 34.8 Michigan 9.3 38.9 Minnesota 2.7 19.5 Mississippi Montana

14.3

Missouri 9.6 28.3

5.4 16.7

292.1 358.9 1400.0 3177.7 428.5 261.9 274.6 1522.7 3159.0 545.5 85.9 19.6 39.2

Massachusetts 3.1 20.8

189.0 233.5 1318.3 2424.2 378.4

156.8 804.9 2773.2 309.2

Nebraska 3.9 18.1 Nevada 15.8

49.1

64.7 112.7 760.0 2316.1 249.1

76.0

1041.7 2343.9 293.4

323.1 355.0 2453.1 4212.6 559.2

23.2

180.4 185.1 1435.8 2774.5 511.5 109.6 343.4 1418.7 3008.6 259.5

472.6 319.1 1728.0 2782.0 745.8

61.3 43.8

318.3 1154.1 2037.8 192.1 446.1 1843.0 144.7

17.0

NewHampshire 3.2 10.7 NewJersey 5.6 21.0 NewMexico 8.8 39.1 NewYork Ohio

10.7

NorthCarolina 10.6

7.8 27.3

NorthDakota

29.4

190.5 181.1 1216.0 2696.8 400.4

73.8

205.0 1288.2 2228.1 326.8

0.9 9.0 13.3

Oklahoma 8.6 29.2 Oregon 4.9 39.9 RhodeIsland SouthDakota Texas 13.3 Utah Vermont

124.1 286.9 1636.4 35061 388.9

130.3 128.0 877.5 1624.1 333.2 86.5 17.9

201.0 1489.5 2844.1 791.4 155.7 570.5 1704.4 147.5 105.9 485.3 1613.6 2342.4 245.1

Pennsylvania 5.6 19.0

3.6 10.5 2.0 13.5

29.7 68.8 33.8

SouthCarolina 11.9 Tennessee 10.1

3.5 20.3

33.0

145.8 203.9 1259.7 1776.5 314.0 147.3 1171.6 3004.6 334.5

101.2 1348.2 2201.0 265.2 165.7 986.2 2521.2 226.7

90.9

597.4 1341.7 163.3

152.4 208.2 1603.1 2988.7 397.6 30.8 92.1

1.4 15.9

Virginia 9.0 23.3 Washington 4.3 39.6 Wisconsin 2.8 12.9 Wyoming ;

proc print data=a;

5.4 21.9

106.2 224.8 1605.6 3386.9 360.3

42.2 52.2 39.7

63.7

846.9 2614.2 220.7

WestVirginia 6.0 13.2

173.9 811.6 2772.2 282.0

proc princomp cov data=a;

var Murder Rape Robbery Assault Burglary Larceny Auto; run;

proc princomp data=a out=a1;

var Murder Rape Robbery Assault Burglary Larceny Auto; run;

proc sort data=a1 out=a2; by prin1; run;

proc print data=a2(keep=State Murder Rape Robbery Assault Burglary Larceny Auto prin1 prin2); run;

proc factor data=a score; run;

【实验结果】

1、1)本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异? princomp cov过程,算得样本协方差矩阵为:

协方差矩阵特征值与特征化向量:

及相应的单位化正交化特征向量:

由各主成分的贡献率知,前五个主成分的累计贡献率已达到100%,实际应用中可只取前五个主成分

由proc princomp过程,算得样本相关矩阵为:

又由proc princomp过程,求出相关矩阵特征值:

及相应的单位化正交化特征向量:

由各主成分的贡献率知,第七个主成分的累计贡献率才达到100%

2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。

答:原始数据的变化可由三个或者更少的主成分反映,由以上结果可知前三个或者更少的主成分的贡献率就已经达到80%甚至90%以上,因此用前三个或者更少的主成分代替原来七个变量,其信息损失是很小的。

3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。

2、从样本相关矩阵出发,做因子分析。 各因素方差解释:

公因子方差估计:

标准化得分系数:

【结果分析与讨论】

实验四 1991年全国各省、区、市城镇居民

月平均收入的数据分析

【实验目的】通过使用SAS软件对实验数据进行判别分析和聚类分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。

【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表,变量含义如下:X1-人均生活费收入(元/人);X2-人均全民所有制职工工资(元/人);X3-人均来源于全民标准工资(元/人);X4-人均集体所有制工资(元/人);X5-人均集体职工标准工资(元/人);X6-人均各种奖金及超额工资(元/人);X7-人均各种津贴(元/人);X8-职工人均从工作单位得到的其他收入(元/人);X9-个体劳动者收入(元/人)。

省(区\\市)名 北京 天津 河北 上海 山东 湖北 广西 海南 四川 云南 新疆 山西 内蒙古 吉林 黑龙江 江西 河南 贵州 陕西 甘肃 青海 宁夏 辽宁 类型 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 x1 170.03 141.55 119.4 194.53 130.46 119.29 134.46 143.79 128.05 127.41 122.96 102.49 106.14 104.93 103.34 98.089 104.12 108.49 113.99 114.06 108.8 115.96 128.46 x2 110.2 82.58 83.33 107.8 86.21 85.41 98.61 99.97 74.96 93.54 101.4 71.72 76.27 72.99 62.99 69.45 72.23 80.79 75.6 84.31 80.41 88.21 68.91 x3 59.76 50.98 53.39 60.24 52.3 53.02 48.18 45.6 50.13 50.57 69.7 47.72 46.19 44.6 42.95 43.04 47.31 47.52 50.88 52.78 50.45 51.85 43.41 x4 8.38 13.4 11 15.6 15.9 13.1 8.9 6.3 13.9 10.5 6.3 9.42 9.65 13.7 11.1 11.4 9.48 6.06 5.21 7.81 7.27 8.81 22.4 x5 4.49 9.33 7.52 8.88 10.5 8.44 4.34 1.56 9.62 5.87 3.86 6.96 6.27 9.01 7.41 7.95 6.43 3.42 3.86 5.44 4.07 5.63 15.3 x6 26.8 21.3 17.3 31 20.61 13.87 21.49 18.67 16.14 19.41 11.3 13.12 9.655 9.435 8.342 10.59 13.14 13.69 12.94 10.82 8.371 13.95 13.88 x7 16.44 12.36 11.79 21.01 12.14 16.47 26.12 29.49 10.18 21.2 18.96 7.9 20.1 20.61 10.19 16.5 10.43 16.53 9.492 16.43 18.98 22.65 12.42 x8 11.9 9.21 12 11.8 9.61 8.38 13.6 11.8 14.5 12.6 5.62 6.66 6.97 6.65 6.45 7.69 8.3 8.37 6.77 3.79 5.95 4.75 9.01 x9 0.41 1.05 0.7 0.16 0.47 0.51 4.56 3.82 1021 0.9 4.62 0.61 0.96 1.68 2.68 1.08 1.11 2.85 1.27 1.19 0.83 0.97 1.41

江苏 浙江 安徽 福建 湖南 广东 西藏 3 3 3 3 3 待判 待判 135.24 162.53 111.77 139.09 124 211.3 175.93 73.18 80.11 71.07 79.09 84.66 114 163.8 44.54 45.99 43.64 44.19 44.05 41.44 57.89 23.9 24.3 19.4 18.5 13.5 33.2 4.22 15.2 13.9 12.5 10.5 7.47 11.2 3.37 22.38 29.54 16.68 20.23 19.11 48.72 17.81 9.661 10.9 9.698 16.47 20.49 30.77 82.32 13.9 13 7.02 7.67 10.3 14.9 15.7 1.19 3.47 0.63 3.08 1.76 11.1 0 1、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。

2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。

2、1)用最短距离法、最长距离法与类平均法聚类,画出谱系图,并写出分3

类的结果;

2)快速聚类法聚类,并写出分3类的结果。 【实验前的预备知识】

1、1)距离判别的原理及判别准则的评价; 2)Bayes判别的原理; 3)逐步判别;

2、1)样品间的相似性度量——距离和变量间的相似性度量——相似系数; 2)谱系聚类法:最短距离法、最长距离法、类平均法、重心法、中间距离法和WARD最小方差法等; 3)快速聚类法:

【实验方法或步骤】

1、判别分析过程 ▲ 分类判别

PROC DISCRIM options; CLASS variable; VAR variables; PRIORS probabilies; TESTCLASS variable

(1)PROC DISCRIM options;

此语句中,“options”部分可包含下列内容: 1)待分析的数据集选择:

①DATA=SAS data set:指定用以建立判别函数的SAS数据集(即训练样本数据集).若省略此句,则最新建立的数据集被用于建立判别函数.

②TESTDATA:SAS data set:指定用以检验判别准则的SAS数据集名称,除分类变量外,该数据集中的变量应和训练样本数据集中的变量一致.

2)输出数据集的选择:

①OUTSTAT=SAS data set:定义一个输出SAS数据集名称,该数据集中包括原训练样本集中各变量的均值、标准差及相关系数等.若METHOD:NORMAL(见后)被使用,该数据集中还包括判别函数的系数.

②OUT=SAS data set:命名一个输出SAS数据集,其中包括训练样本集的数据及变量、后验概率及回判结果.

⑧OUTCROSS=SAS data set:定义一个输出的SAS数据集,其中包括训练样本数据及变量、后验概率以及由交叉确认法所得的回判结果等.

④TESTOUT=SAS data set:定义一个输出的SAS数据集,其中包括检验数据集中的变量和数据、后验概率以及利用所建立的判别准则对检验数据集的判别结果.此项当“options”中有“TESTDATA:SAS data set”时运用. 3)判别分析方法的选择:

①METHOD=NORMAL(或NPAR):指出建立判别函数的方法.当

“METHOD=NORMAL”被指定,则在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵,并视各总体的协方差矩阵是否相等而分别建立线性及二次判别函数;当指定“METHOD=NPAR”,则使用非参数方法建立判别函数.前者是SAS系统默认的方法.

②POOL=YES(或NO,TEST):在选择\:NORMAL”的前提下,“POOL=YES”意味着假定各总体的协方差矩阵相等,而用各训练样本的样本协方差矩阵联合估计公共的协方差矩阵,这时建立的判别函数是线性的;若选择 “POOL=NO”,则意味着假定各总体的协方差矩阵不等而建立二次判别函数;“POOL=TEST\即要求首先利用修正的Bartlett似然比方法检验各总体的协方差矩阵是否相等,若检验结果在由语句“SLPOOL=p”(见后)所指定的显著水平p下显著,则建立二次判别函数,否则利用联合协方差矩阵估计建立线性判别函数.对线性判别函数,输出结果中才给出判别函数的系数.

③SLPOOL=p:指定检验协方差矩阵是否相等的显著水平.只有当选择 “POOL=TEST\时,才可出现此语句,若省去此语句,则SAS系统默认p:0.10,

4)回判结果输出选择:

①LIST:打印出每个样品的回判结果. ②LISTERR:仅打印出回判中判错的样品信息. ③NOCLASSIFY:不需要对训练样本数据作回判分析.

5)交叉确认法回判结果的输出选择:

当下列语句出现时,则交叉确认法被使用对训练样本作回判分析. ①CROSSVALIDATE:要求对训练样本数据集进行交叉确认回判分析. ②CROSSLISTERR:仅打印出使用交叉确认法判别而判错的样品信息. ⑧CROSSLIST:打印出每个样品的交叉确认法回判分析结果. 6)检验数据集判别结果的输出选择

①TESTLIST:列出对检验数据集的判别结果.

②TESTLISTERR:仅列出对检验数据集中判错的样品信息. 7)控制打印选择

①WCORR;打印各总体(组内)的训练样本相关矩阵.

②PCORR:打印由各总体的样本相关矩阵所得的联合相关矩阵估计.

类似地,WCOV,PCOV则要求打印出相应于①、②的训练样本协方差矩阵估计.

⑧ALL:打印出所有的相关结果. ④SHORT:只打印一些主要结果, (2)CLASS variable;

其中的“variable”即描述各类别的变量名称.该变量可以是数值化的变量,也可以是非数值变量.该语句是进行判别分析所必需的语句. (3)VAR variables;

其中“variables”即列出参与分析的描述各样品特征的变量名称,省略时即数据集中所有的数值变量. (4)PRIORS probabilities;

此语句的功能即指出总体的先验概率分布.其中的“probabilities”应是下列三种选择之一:

1)EQUAL,即各总体的先验概率相等.

2)PROPORTIONAL(或PROP):即各总体的先验概率与各总体的训练样 本容量成比例,设有三个总体G1,G2,G3,训练样本容量分别为n1,n2,n3,则各总体的先验概率分布为q1?nn1n,q2?2,q3?3,这里n?n1?n2?n3。 nnn 3)具体指定各总体的先验概率.通常有两种方式:

①若描述各总体类别的变量(即“CLASSvariable\中的变量)是非数值变量,则在各类取值后给出先验概率并用等号连起来.例如,描述各总体类别的变量 “GRADE”取A,B,C,D四个值(每个值代表一类总体),各总体先验概率分布为0.1,0.3,0.5和0.1,则“PRIORS”语句为

PRIORS A=0.1 B=0.3 C=0.5 D=0.1;

②若描述各总体类别的变量是数值化变量或者是小写字母时,这时要将这些值用“'”引起来写在上式等号前.例如,若前述变量“GRADE”取值为1,2,3,4,则指定先验概率的语句形式应为

PRIORS '1'=0.1 '2'=0.3 '3'=0.5 '4'=0.1

若“GRADE”的取值为a,b,c,d,则指定先验概率的语句应为 'a'?0. 1 'b'?0. 1 'c'?0. 1 'd'?0. 1 若指定的先验概率之和非1,则SAS系统自动用其和除各值而使各概率之和为1。

在以上三种指定总体出现的先验分布的形式中,“EQUAL”是SAS系统默认的形式。

(5)TESTCLASS variable;

其中“variable”是描述检验数据集中的各总体类别的变量名,它可以和原训练样本数据集中的类别变量相同,也可以不同,但二者必须是同类型的(即同为数值或非数值变量).若变量采用格式化输入,则二者的输入格式也应相同.

▲ 逐步判别——PROCSTEPDISC过程

PROCSTEPDISC过程用以逐步判别分析.逐步判别的思想和逐步回归类似,即通过逐个引入或剔除变量挑选判别力最强的变量.此过程用Wilks的A似然比统计量判断一个变量的判别能力的强弱.逐步判别包括向前选入,向后剔除和逐步选择三种方法,并且假定各总体均服从协方差矩阵相等的正态分布.该过程的主要语句形式为

PROC STEPDISC options; CLASS variable; VAR variables; ①DATA=SAS data set:指定被分析的SAS数据集名称.

②METHOD=name:指定逐步判别的方法,其中的“name”可以是下列三种之一,即FORWARD(或FW),BACKWARD(或BW)及STEPWISE(或SW),分别表示向前选入,向后剔除和逐步选择方法.若省略此句,则默认方法为STEP—WISE。

③SLENTRY=level(或SLE=level):在向前选入方法中,指定选入变量的显著水平。默认值为level=0.15

④SLSTAY=level(或SLS=level):在向后剔除方法中,指定保留变量的显著水平.默认值为level=0.15.对于STEPWISE方法,要同时指定SLENTRY和SLSTAY,通常取为相等。

⑤PR2ENTRY=level(或PR2E=level):在向前选择方法中,指定选入变量的R*R值。

⑥PR2STAY=level(或PR2S=level):在向后剔除方法中,指定保留变量的R’值。

除以上选项外还包括打印选项,如打印各总体的样本相关矩阵,联合样本相关矩阵及相应的样本协方差矩阵等等(与PROCDISCRIM过程相应选项基本相同)。

(2)CLASS variable;

这—语句和\AR variables”语句与PROC DISCRIM过程相应语句的用法完全相同。 2、聚类分析 ▲ 谱系聚类法

PROC CLUSTER过程的基本语句为:

PROC CLUSTER options; /启动SAS聚类分析过程/ VAR variables;/部分列出参与聚类分析大数值变量名称/ ID variable;/用以表征个样品的名称,通常是定性变量/

Options通常包括下面一些内容:

1) DATA=SAS data set:该语句指出要进行聚类分析的数据集名称,它可以是含个观测向量的原始数据集,也可以是“距离”矩阵(这时要在数据集名后加上(TYPE=DISTANCE).

2) OUTTREE=SAS data set;生成一个用于画聚类谱系图的输出数据集. 3) METHOD=name;指出具体使用的聚类方法.主要有: a. SINGLE(或SIN):最短距离法. b. COMPLETE(或COM): 最长距离法. c. AVERAGE(或AVE):类平均法. d. CENTROID(或CEN):重心法. e. MEDIAN(或MED):中间距离法. f. WARD(或WAR):WAR最小方差法.

4) NOSQUARE:阻止过程在METHOD=AVERAGE、CENTROID、MEDIAN或WARD方法中将输入的距离平方.

5) NONORM:阻止将距离规范化.

6) PSEUDO:要求打印伪F统计量及伪t2统计量的值.只有当输入数据是原始观测数据(但“METHOD”选项不能是SIN)或者“METHOD”选项为AVE、CEN或WAR时,才可选此项.

7) RSQUARE(或RSQ):要求打印出R2统计量和半偏相关统计量SPRSQ的值.当输入数据是原始观测数据且“METHED”选项是AVE或CEN时,才可选此项.

进一步若要画出聚类的谱系图,可用下列语句:

PROC TREE options; ID variable;

在“options”中除用DATA=SAS data set指定画图的SAS数据集名称外,可以是: a. HORIZONTAL:表示谱系图水平放置. b. VERTICAL:表示谱系图垂直放置.

c. SPACES=m:表示ID变量值的间隔单位,这里m是正整数. d. GRAPHICS:要求画高分辨率的聚类谱系图.

e. NCLUSTERS=m:指定在输出分类结果数据集中所分成的类的个数. f. OUT=SAS data set:按e中要求输出分类结果. ▲ 快速聚类法

PROC FASTCLUS options; VAR variables; ID variables; Options通常包括下面一些内容:

a. MAXCLUSTER(或MAXC)=n:指定所允许的最大分类个数. b. RADIUS=t:为选择新的“聚点”指定的最小距离准则.

c. DATA=SAS data set:指出用以分析的SAS数据集名称,要求数据性质是原始观测数据.

d. MEAS=SAS data set:生成一个输出数据集,其中包括每个类的均值和其他统计量的值.

e. OUT=SAS data set:生成一个输出数据集,其中包括原始数据及两个新变量CLUSTER(用以指示观测属于哪个类的变量)和距离DISTANCE.

f. CLUSTER=name:规定在d和f的输出数据集中用以指示观测属于哪一类的变量名称.

g. DISTANCE:要求打印类均值之间的距离.

h. LIST:要求列出所有观测的ID变量值,观测所归入类的类号及观测与最终“聚点”之间的距离。

i. LEAST=m:表明用Lm准则进行聚类,L1是绝对距离,LEAST=MAX是Chebyshev距离.

“VAR variables”和“ID variables”语句与PROC CLUSTER过程的相应语句用法相同。

1、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。 程序如下:

data dlxf1;

input d$ c x1 x2 x3 x4 x5 x6 x7 x8 x9; cards;

北京 1 170.03 110.2 59.76 8.38 0.41 天津 1 141.55 82.58 50.98 13.4 1.05 河北 1 0.7 上海 1 0.16

4.49 9.33

26.8 21.3 17.3

16.44 11.912.36 9.2111.79 12

119.4 83.33 53.39 11 7.52 194.53 107.8 60.24 15.6

15.9

8.88 10.5 8.44

31 21.01 11.820.61 12.14 9.6113.87 16.47 8.3821.49 26.12 13.618.67 29.49 11.816.14 10.18 14.519.41 21.2

12.6

山东 1 130.46 86.21 52.3 0.47

湖北 1 119.29 85.41 53.02 13.1 0.51 广西 1 4.56

134.46 98.61 48.18 8.9 4.34

6.3 1.56

9.62 5.87

海南 1 143.79 99.97 45.6 3.82 四川 1 1.21

128.05 74.96 50.13 13.9

云南 1 127.41 93.54 50.57 10.5 0.9

新疆 1 122.96 101.4 69.7 4.62

6.3 3.86

6.96 6.27 9.01 7.41 7.95 6.43 3.42 3.86 5.44 4.07 5.63 15.3 15.2 13.9 12.5 10.5

11.3 18.96 5.62

6.666.97

山西 2 102.49 71.72 47.72 9.42 0.61 内蒙古 2 106.14 76.27 46.19 9.65 0.96 吉林 2 104.93 72.99 44.6 1.68

13.7

13.12 7.9 9.655 20.1

9.435 20.61 6.658.342 10.19 6.4510.59 16.5

7.69

黑龙江 2 103.34 62.99 42.95 11.1 2.68 江西 2 98.089 69.45 43.04 11.4 1.08 河南 2 1.11

104.12 72.23 47.31 9.48

13.14 10.43 8.3 13.69 16.53 8.3712.94 9.492 6.7710.82 16.43 3.798.371 18.98 5.9513.95 22.65 4.7513.88 12.42 9.0122.38 9.661 13.929.54 10.9

13

贵州 2 108.49 80.79 47.52 6.06

2.85 陕西 2 1.27

113.99 75.6

50.88 5.21

甘肃 2 114.06 84.31 52.78 7.81 1.19 青海 2 0.83 宁夏 2 0.97

108.8 80.41 50.45 7.27 115.96 88.21 51.85 8.81

辽宁 3 128.46 68.91 43.41 22.4 1.41 江苏 3 135.24 73.18 44.54 23.9 1.19 浙江 3 3.47 安徽 3 0.63

162.53 80.11 45.99 24.3 111.77 71.07 43.64 19.4

16.68 9.698 7.0220.23 16.47 7.67

福建 3 139.09 79.09 44.19 18.5 3.08 湖南 1.76

3 124 84.66 44.05 13.5

7.47 19.11 20.49 10.3

proc print; run;

data dlxf0;

input d$ x1 x2 x3 x4 x5 x6 x7 x8 x9; cards; 广东 西藏

211.3 114 41.44 33.2 175.93 163.8 57.89 4.22

11.2 3.37

48.72 30.77 14.9 17.81 82.32 15.7

11.1 0

;

proc print; run;

proc discrim data=dlxf1 testdata=dlxf0 out=a1 outstat=a2 outcross=a3 testout=a4

method=normal list crosslist testlist wcov pcov; class c; id d; var x1-x9; priors equal; run;

用距离判别法,假定总体G1, G2,G3 的协方差矩阵?1=?2=?3=? 用proc discrim过程,算得如下结果: 各个总体之间的马氏平方距离

d(G,G)形成的矩阵为:

ij?2

T?2?1(i)(i)2(i)(i)(?其中d?d(Gi,Gj)?(?)sxx).从这一计算结果可以看

ijxx出,总体G1与G3的马氏平方距离最大,d2?31.82395,这说明总体G2与G3

ij的差异最大。事实上,总体G2属于低收入省区,总体G3属于高收入省区。

本文来源:https://www.bwwdw.com/article/zdx6.html

Top