数学建模B作业全部 部分答案

更新时间:2024-05-17 00:18:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

2015年数学建模B作业 (全部,共23题)

作业要求

1.作业解答写在实验报告纸上,无需抄题,但要写题号。 2.实验报告纸上要写程序,程序中可不抄数据。

3.将程序运行的重要结果有选择的展示在实验报告纸上,并做结果分析。

4.从第三周开始,每周要交1次作业。每次作业的题目根据进度由老师安排。如老师未作说明,那就是:课讲到哪里作业就做到哪里。 5.如何收作业,听任课老师安排。 6.不收作业的打印版、电子版。

第一部分 多元统计

2015-1 回归分析

某种水泥在凝固时放出的热量y(k/g)与水泥中的3CaOAl2O3的成分 (%),3CaOSiO2

的成分x2(%),4CaOAl2O3Fe2O3的成分x3(%),2CaOSiO2的成分x4(%)的观测值如下表,试以y为因变量,以x1,x2,x3,x4为自变量建立多元回归方程并作显著性检验。

样本点 1 2 3 4 5 6 7 8 9 10 11 12 13 x1 7 1 11 11 7 11 3 1 2 21 1 11 10 x2 26 29 56 31 52 55 71 31 54 47 40 66 68 x3 6 15 8 8 6 9 17 22 18 4 23 9 8 x4 60 52 20 47 33 22 6 44 22 26 34 12 12 y 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 解:考虑到变量间可能存在多重共线性,采用逐步回归,程序如下: data ex;input x1-x4 y @@; cards;

7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7

1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.3 10 68 8 12 109.4 ;

proc reg;

model y=x1-x4/selection=stepwise; run;

程序运行最终结果如下:

线性回归方程为:y?52.58?1.47x1?0.66x2,由于几处pr>F的值均小于0.0001,故回归方程的线性性及各参数的显著性检验均通过,且拟合优度达到R2=0.9787。

2015-2 聚类分析

DNA是由A,T,C,G这4种碱基按一定顺序排成的序列,长短不一,其中碱基含量的百分比不同通常能揭示该序列的一些规律,试根据下表所给出的20条DNA序列的碱基含量百分比对其20条DNA序列进行分类。 (注,计算式下面的数据需要转置) 1 2 30 17 18 46 3 30 7 24 50 4 47 32 12 20 5 26 12 26 47 6 39 14 14 44 7 39 21 11 40 8 31 21 18 41 9 23 17 23 48 10 20 15 30 45 11 39 55 5 11 12 36 55 3 16 13 28 57 11 14 14 33 55 9 13 15 32 71 0 7 16 40 51 9 10 17 39 29 27 15 18 32 55 13 10 19 24 62 16 8 20 22 62 19 7 A 33 T 15 C 19 G 44 解:依题意,首先将原始数据进行处理,转化成百分比,程序如下: data ex;input a t c g@@; cards;

0.2973 0.1351 0.1712 0.3964 0.2703 0.1532 0.1622 0.4144 0.2703 0.0631 0.2162 0.4505 0.4234 0.2883 0.1081 0.1802 0.2342 0.1081 0.2342 0.4234 0.3514 0.1261 0.1261 0.3964 0.3514 0.1892 0.0991 0.3604 0.2793 0.1892 0.1622 0.3694 0.2072 0.1532 0.2072 0.4324 0.1818 0.1364 0.2727 0.4091 0.3545 0.5000 0.0455 0.1000 0.3273 0.5000 0.0273 0.1455 0.2545 0.5182 0.1000 0.1273 0.3000 0.5000 0.0818 0.1182 0.2909 0.6455 0 0.0636 0.3636 0.4636 0.0818 0.0909 0.3545 0.2636 0.2455 0.1364 0.2909 0.5000 0.1182 0.0909 0.2182 0.5636 0.1455 0.0727 0.2000 0.5636 0.1727 0.0636 ;

proc cluster method=single; /*最短距离法*/ proc tree;run;

聚类图如下,根据动态聚类图可以看出,此处20个DNA序列分成三类较为合适,具体情况如下:

第一类:4,17;

第二类:1,2,3,5,6,7,8,9,10;

第三类:11,12,13,14,15,16,18,19,20

2015-3 判别分析

观测3名健康人和4名心肌梗塞病人心电图的3项指标x1,x2,x3所得观测值如下表,试判别心电图3项指标为(400.72,49.46,2.25)的人属于两类中的哪一类,并指出哪个指标在判别分析中占有最重要的地位。 类 健康人 病人编号 1 2 3 1 心肌梗塞病人 2 3 4 x1 436.70 290.67 352.53 510.47 510.41 470.30 364.12 x2 49.59 30.02 36.26 67.64 62.71 54.4. 46.26 x3 2.32 2.46 2.36 1.73 1.58 1.68 2.09 解:根据判别分析编写程序如下:

data ex;input leibie x1 x2 x3@@; cards;

1 436.70 49.59 2.32 1 290.67 30.02 2.46 1 352.53 36.26 2.36 2 510.47 67.64 1.73 2 510.41 62.71 1.58 2 470.30 54.4. 1.68 2 364.12 46.26 2.09 ;

data ex1;input x1 x2 x3@@; cards;

400.72 49.46 2.25 ;

proc discrim data=ex testdata=ex1 anova manova simple list testout=ex2; class leibie;

proc print data=ex2;run;

根据运行结果知,所建立的判别规则误判率为0:

最终判别结果为该人属于第一类:

2015-4 主成分分析

某市为全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14个企业关

于这8个指标的统计数据如下表,试进行主成分分析并将14个企业的经济效益进行排序。 企 业 1 2 3 4 5 6 7 8 9 10 11 12 13 14 净产值 利润率 40.4 25.0 13.2 22.3 34.3 35.6 22.0 48.4 40.6 24.8 12.5 1.8 32.3 38.5 固定资产 总产值 销售收入 产品成本 利润率 利润率 利润率 利润率 24.7 12.7 3.3 6.7 11.8 12.5 7.8 13.4 19.1 8.0 9.7 0.6 13.9 9.1 7.2 11.2 3.9 5.6 7.1 16.4 9.9 10.9 19.8 9.8 4.2 0.7 9.4 11.3 6.1 11.0 4.3 3.7 7.1 16.7 10.2 9.9 19.0 8.9 4.2 0.7 8.3 9.5 8.3 12.9 4.4 6.0 8.0 22.8 12.6 10.9 29.7 11.9 4.6 0.8 9.8 12.2 物耗利 润率 8.7 20.2 5.5 7.4 8.9 29.3 17.6 13.9 39.6 16.2 6.5 1.1 13.3 16.4 人均利 润率 2.442 3.542 0.578 0.176 1.726 3.017 0.847 1.772 2.449 0.789 0.874 0.056 2.126 1.327 流动资金 利润率 20.0 9.1 3.6 7.3 27.5 26.6 10.6 17.8 35.8 13.7 3.9 1.0 17.1 11.6 解:编写主成分分析的程序如下: data ex;input x1-x8@@; cards;

40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.0

25.0 12.7 11.2 11.0 12.9 20.2 3.542 9.1 13.2 3.3 3.9 4.3 4.4 5.5 0.578 3.6 22.3 6.7 5.6 3.7 6.0 7.4 0.176 7.3 34.3 11.8 7.1 7.1 8.0 8.9 1.726 27.5

35.6 12.5 16.4 16.7 22.8 29.3 3.017 26.6 22.0 7.8 9.9 10.2 12.6 17.6 0.847 10.6 48.4 13.4 10.9 9.9 10.9 13.9 1.772 17.8 40.6 19.1 19.8 19.0 29.7 39.6 2.449 35.8 24.8 8.0 9.8 8.9 11.9 16.2 0.789 13.7 12.5 9.7 4.2 4.2 4.6 6.5 0.874 3.9 1.8 0.6 0.7 0.7 0.8 1.1 0.056 1.0 32.3 13.9 9.4 8.3 9.8 13.3 2.126 17.1 38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6 ;

proc princomp out=prin;var x1-x8;

proc print data=prin;var Prin1-prin8; run;

根据运行结果,以累积贡献率超过90%为标准,可选择三个主成分:

根据特征向量可以写出主成分表达式:

如第一主成分可写为如下,其它类似:

prin1?0.32x1?0.30x2?0.39x3?0.38x4?0.38x5?0.37x6?0.32x7?0.36x8

由变量前的系数大小可见,第一主成分主要是反映总产值利润率、销售收入利润率和产品成本利润率的,是用来衡量企业经营状况的一个综合指标,其它可类似分析。 另外,还可进行主成分得分分析,主成分得分的结果如下:

可见,在第一主成分上得分最高的是企业9,在第二主成分上得分最高的是企业1,在第三主成分上得分最高的是企业2。

2015-5 因子分析

有10例患者的4项肝功能指标的观测数据如下表,试作这4项指标的因子分析并对病人进行病情分析。

患者 1 2 3 4 5 6 7 8 转氨酶量 肝大指数 40 10 120 250 120 10 40 270 2.0 1.5 3.0 4.5 3.5 1.5 1.0 4.0 硫酸锌浊度 5 5 13 18 9 12 19 13 胎甲球 20 30 50 0 50 50 40 60 9 170 3.0 9 60 10 130 2.0 30 50 解:编写因子分析程序如下: data ex;

input a b c d; cards; 40 2.0 5 20 10 1.5 5 30 120 3.0 13 50 250 4.5 18 0 120 3.5 9 50 10 1.5 12 50 40 1.0 19 40 270 4.0 13 60 170 3.0 9 60 130 2.0 30 50 ;

proc corr out=ex1;

proc factor data=ex1 outstat=ex2 method=prin rotate=orthomax score;

proc score data=ex score=ex2 out=ex3; proc print;run;

根据程序结果,按累积贡献率超过90%,选择三个公因子:

为了便于解释,旋转过后的因子模式为:

由此可写出:a?0.96F1?0.22F2?0.1F3,其它类似。 标准化因子得分系数如下:

由此有F1?0.50a?0.54b?0.07c?0.02d,其它类似。

priors=one

根据上式有因子得分结果如下:

在三个公因子上得分最高的患者依次是:4,10,8。

2015-6 典型相关分析

棉花红铃虫第一代发蛾高峰日y1(元月1日到发蛾高峰日的天数)、第一代累计百株卵量y2、发蛾高峰日百株卵量y3及2月下旬到3月中旬的平均气温x1、1月下旬到3月上旬的日照小时累计数的常用对数x2的10组观测数据如下表,试作气象指标与虫情指标间的典型相关分析。

样本点 1 2 3 4 5 6 7 8 9 10 x1 9.2 9.1 8.6 10.2 5.6 6.1 8.2 8.8 9.7 10.3 x2 2.01 2.2 2.3 2.2 2.1 2.2 2.1 1.9 2.1 2.2 y1 186 169 171 171 181 174 172 186 176 161 y2 46.3 30.7 144.6 69.2 16.0 2.7 26.3 247.1 53.6 62.7 y3 14.3 14.0 69.3 22.7 7.3 1.3 7.9 85.2 25.3 29.3 解:编写程序如下:

data ex; input x1-x2 y1-y3@@; cards; 9.2 2.01 186 46.3 14.3 9.1 2.2 169 30.7 14.0 8.6 2.3 171 144.6 69.3 10.2 2.2 171 69.2 22.7 5.6 2.1 181 16.0 7.3 6.1 2.2 174 2.7 1.3 8.2 2.1 172 26.3 7.9 8.8 1.9 186 247.1 85.2 9.7 2.1 176 53.6 25.3 10.3 2.2 161 62.7 29.3 ;

proc cancorr; var x1-x2;

with y1-y3; run;

根据运行结果,按累计贡献率达到90%及显著性的要求,选定典型变量:

典型变量的表达式子可以根据以下结果写出:

V1?0.12x1?8.51x2,W1??0.08y1?0.03y2?0.07y3

可见V1主要反映的是x2,W1主要反映的是y3,由于V1和W1是关系最强的一对典型变量,也意味着x2对y3有着最重要的影响。从下面还可以看出各单个变量与典型变量间的关系强弱:

第二部分 非参数统计

2015-7 方法比较

某制造商想要比较两种不同的生产方法所花费的生产时间是否有差异。随机地选取了11个工人,每一个工人都分别使用两种不同的生产方法来完成一项相同的任务,在样本中的每一个工人都做了观察。数据见表,试用Wilcoxon秩和检验这两种方法有无差异? 工人编号 方法1 方法2 1 2 3 9.2 8.8 4 10.6 10.1 5 9.9 10.3 6 10.2 9.3 7 10.6 10.5 8 10.0 10.0 9 11.2 10.6 10 10.7 10.2 11 10.6 9.8 10.2 9.6 9.5 9.8 解:提出原假设,这两组方法没有显著性差异,用配对实验的符号检验法,相应代码如下: data ex; input x1 x2@@; y=x1-x2; cards; 10.2 9.5 9.6 9.8 9.2 8.8

10.6 10.1 9.9 10.3 10.2 9.3 10.6 10.5 10 10

11.2 10.6 10.7 10.2 10.6 9.8 ;

proc univariate; var y; run;

运行结果如下:

从结果中可以看出,sign统计量为3,其显著性为0.1094,大于0.05,故接受原假设,认为这两组方法没有显著性差异。

2015-8 培训方案选择

为培训大学生志愿者为社区服务,设计了4种培训方案,记作为A,B,C,D.将报名的30名大学生随机地分为4组,分别接受不同培训。训练一周后,按规定的要求考试,评定的成绩如下,试用非参数检验方法检验这四种培训方案的有效性是否存在显著差异? 培训方案A 培训方案B 培训方案C 60,75,62,76,73,98,86 72,52,68,82,74,64,87 61,85,78,66,70,59,69,79

培训方案D 63,58,65,71,84,77,80,89 解:提出原假设,这四种培训方案方法没有显著性差异,相应代码如下: data ex;

do a=1 to 4;input n@@; do i=1 to n; input x@@;

output;end;end; cards;

7 60 75 62 76 73 98 86 7 72 52 68 82 74 64 87 8 61 85 78 66 70 59 69 79 8 63 58 65 71 84 77 80 89 ;

proc npar1way wilcoxon;class a;var x; run;

运行结果如下:

从结果中可以看出,Chi-Square统计量为0.5537,其显著性为0.9069,大于0.05,故接受原假设,认为四种培训方案方法没有显著性差异。

2015-9 双胞胎智力的相关分析

某研究所对10对双胞胎儿童的智力进行调查,试计算其Pearson、Spearman和Kendall相关系数并对其进行相关性检验。

双胞胎编号 1 2 3 4 5 6 7 8 9 10 先出生儿童X 9.0 16.6 16.2 11.3 16.2 7.1 7.8 4.0 11.2 1.3 后出生儿童Y 7.8 19.3 20.1 7.1 13.0 4.8 8.9 7.4 10.0 1.5 解:

求其Pearson,Spearman和Kendall相关系数,代码如下: DATA new; INPUT x y@@;

CARDS; 9.0 7.8

16.6 19.3 16.2 20.1 11.3 7.1 16.2 13.0 7.1 4.8 7.8 8.9 4.0 7.4

11.2 10.0 1.3 1.5 ;

PROC CORR pearson spearman kendall; VAR x y; RUN;

结果如下:

Pearson Correlation Coefficients, N = 10 Prob > |r| under H0: Rho=0

x y

x 1.00000 0.88081 0.0008

y 0.88081 1.00000 0.0008

Spearman Correlation Coefficients, N = 10 Prob > |r| under H0: Rho=0

x y

x 1.00000 0.82067 0.0036

y 0.82067 1.00000 0.0036

Kendall Tau b Correlation Coefficients, N = 10 Prob > |r| under H0: Rho=0

x y

x 1.00000 0.67420 0.0071

y 0.67420 1.00000 0.0071

可见,x与y的Pearson相关系数为0.88081,概率为0.0008,达到极显著水平;Spearman相关系数为0.82067,概率为0.0036,达到极显著水平;Kendall相关系数0.67420,概率为0.0071达到极显著水平;故,x与y显著相关。

第三部分 预测预报

2015-10 灰色预测

陕西省农业总产值数据如下: 年份 总产值 1985 62.9 1986 58.8 1987 61.4 1888 87.2 (0)1989 104.9 (0)1990 124.8 1991 110.7 1992 129.0 (1)1993 155.3 1994 219.03 请建立灰色系统GM(1,1)模型,并预测1995-1997三年的农业总产值。

解:有原始时间1985-1994序列x(k),对x(k)生成1-AGO序列x(k)另外可得Yn见表:

x(0)(k)、1-AGO序列x(1)(k)、Yn

k

1

2

3 61.4

4 87.2

5

6

7

8 129

9 155.3 895

10 219.03 1114.03 219.03

x(0)(k) 62.9 58.8

104.9 124.8 110.7

500

x(1)(k) 62.9 121.7 183.1 270.3 375.2

610.7 739.7

Yn 58.8 61.4 87.2 104.9 124.8 110.7 129 155.3

利用MATLAB编程得:

function [X,c,error1,error2]=example9_11() %利用MATLAB编程预测2003年中国蔬菜产量,

%并对预测结果做残差检验和后验差检验,程序如下: X0=[62.9 58.8 61.4 87.2 104.9 124.8 110.7 129.0 155.3 219.03 ]; k=3;

[X,c,error1,error2]=GM11(X0,k) plot(1985:1994,X0,'g*-') hold on

plot(1985:1997,X) %%

function [X,c,error1,error2]=GM11(X0,k)

% 建立函数[X,c,error1,error2]=example9_3_2_3(X0,k) % 其中X0为输入序列,k为预测长度,

% X为预测输出序列,c为后验差检验数,error1为残差,error2为相对误差 format long; n=length(X0); X1=[];

X1(1)=X0(1); for i=2:n

X1(i)=X1(i-1)+X0(i); %计算累加生成序列 end

for i=1:n-1

B(i,1)=-0.5*(X1(i)+X1(i+1)); %计算B,Yn B(i,2)=1; Y(i)=X0(i+1); end

alpha=(B'*B)^(-1)*B'*Y'; %做最小二乘估计 a=alpha(1,1); b=alpha(2,1);

d=b/a; %计算时间响应函数参数 c=X1(1)-d; X2(1)=X0(1); X(1)=X0(1); for i=1:n-1

X2(i+1)=c*exp(-a*i)+d;

X(i+1)=X2(i+1)-X2(i); %计算预测序列 end

for i=(n+1):(n+k)

X2(i)=c*exp(-a*(i-1))+d; %计算预测序列 X(i)=X2(i)-X2(i-1); end

for i=1:n

error(i)=X(i)-X0(i);

error1(i)=abs(error(i)); %计算残差 error2(i)=error1(i)/X0(i); %计算相对误差 end

c=std(error1)/std(X0); %计算后验差检验数

运行结果见表格: 年份 1985 1986 1987 1888 1989 1990 1991 1992 1993 1994 1995 1996 1997 总产值 预测值 62.9 58.8 61.4 87.2 62.9 104.9 124.8 110.7 129 155.3 219.03 309.6498 58.568.179.292.2107.124.145.169.196.228.266.8326 5687 9499 5329 3292 8688 2748 0154 6357 7697 155 残差 相对误差 0 0 0.216 0.003 6.756 0.110 7.905 0.090 12.64 0.120 17.47 0.139 14.16 0.127 16.27 0.126 13.71 0.088 22.39 0.102 画出预测与实际值变化曲线,如图所示:

预测与实际值变化曲线

3503002502001501005019841986198819901992199419961998

实验模型以及结果检验:由表与图的结果可见,预测值与实际值偏离不大,其后验残差检验数C=0.1475小于0.35,所以模型精度为优。

2015-11 序列预测

某车站1993-1997年各月的列车运行数量数据如下表,试用时间序列建立合适的模型。并预测1998年1月的数值

1196.8 1181.3 1222.6 1229.3 1221.5 1148.4 1250.2 1174.4 1234.5 1209.7 1206.5 1204.0 1234.1 1146.0 1304.9 1221.9 1244.1 1194.4 1281.5 1277.3 1238.9 1267.5 1200.9 1245.5 1249.9 1220.1 1267.4 1182.3 1221.7 1178.1 1261.6 1274.5 1196.4 1222.6 1174.7 1212.6 1215.0 1191.0 1179.0 1224.0 1183.0 1288.0 1274.0 1218.0 1263.0 1205.0 1210.0 1243.0 1266.0 1200.0 1306.0 1209.0 1248.0 1208.0 1231.0 1244.0 1296.0 1221.0 1287.0 1191.0 解:

(1) 首先进行平稳性检验:

data a;/*a为数据名*/

input lieche@@;/*lieche为变量名*/

month=intnx('month','1jan1993'd,_n_-1);/*intnx间隔取时间变量*/

format month date.;/*月按????*/ cards;

1196.8 1181.3 1222.6 1229.3 1221.5 1148.4 1250.2 1174.4 1234.5 1209.7

1206.5 1204.0 1234.1 1146.0 1304.9 1221.9 1244.1 1194.4 1281.5 1277.3

1238.9 1267.5 1200.9 1245.5 1249.9 1220.1 1267.4 1182.3 1221.7 1178.1

1261.6 1274.5 1196.4 1222.6 1174.7 1212.6 1215.0 1191.0 1179.0 1224.0

1183.0 1288.0 1274.0 1218.0 1263.0 1205.0 1210.0 1243.0 1266.0 1200.0

1306.0 1209.0 1248.0 1208.0 1231.0 1244.0 1296.0 1221.0 1287.0 1191.0

; run ;

proc gplot;/*画图*/

plot lieche*month;/*纵轴为lieche,横轴为mouth*/

symbol v=square i=join c = red;/*图形特征,v表示点的形状,i表示图形连线的情况,c代表颜色*/

proc arima data = a;/*调用arima模块*/

identify var=lieche nlag = 22;/*延迟阶数为22阶*/ run;

运行得自相关图:

由此自相关图可看出,自相关系数很快的衰减向0,且始终控制在2倍范围内,可以认为该序列为平稳序列。 时序图:

lieche13101300129012801270126012501240123012201210120011901180117011601150114001JAN9301APR9301JUL9301OCT9301JAN9401APR9401JUL9401OCT9401JAN9501APR9501JUL9501OCT9501JAN9601APR9601JUL9601OCT9601JAN9701APR9701JUL9701OCT9701JAN98 由图可知,此车站列车运行数量数据在一个常数值附近随机波动,而且波动范围有界,无明显趋势及周期特征,基本可以视序列为平稳序列。

(2)进行随机性检验:

选取结果中The ARIMA Procedure部分:

month

由于统计量P值均大于0.05,则认为在0.05的显著水平下,无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定,因而认为此车站列车运行数量为纯随机波动序列,各序列之间没有任何行相关关系,即为无记忆序列,也就是说,该车站列车运行数量前后两年并无大的联系,也就是实说,我们很难根据历史信息预测未来年份此车站列车运行数量,故,该平稳序列不值得继续分析下去,对该序列分析到此结束。

2015-12 序列预测

对我国1952-1994年的社会消费品零售总额数据建立合适的时间序列模型,并预测1995-1997年的数据。

社会消费品零售总额 1952 1955 1960 1965 1970 1975

364.0 595.4 590.1 728.8 1046.4

424.0 537.7 632.8 776.9 1099.0

262.7 441.6 543.7 679.1 853.5 1174.3

328.8 481.2 544.8 649.2 917.7 1264.9

356.1 556.5 572.7 698.2 967.4 1476.0

1980 1985 1990 1794.0 3801.4 7250.3 2002.5 4374.0 8245.7 2181.5 5115.0 9704.8 2426.1 6534.6 12462.1 2899.2 7074.2 16264.7

解:(1)首先进行平稳性检验: data a;/*a为数据名*/

input xf@@;/*xf为变量名*/

year=intnx('year','1jan1952'd,_n_-1);/*intnx间隔取时间变量*/ format year year4.; /*年按四位数显示*/ cards;

262.7 328.8 356.1

364.0 424.0 441.6 481.2 556.5 595.4 537.7 543.7 544.8 572.7 590.1 632.8 679.1 649.2 698.2 728.8 776.9 853.5 917.7 967.4 1046.4 1099.0 1174.3 1264.9 1476.0 1794.0 2002.5 2181.5 2426.1 2899.2 3801.4 4374.0 5115.0 6534.6 7074.2 7250.3 8245.7 9704.8 12462.1 16264.7 ; run ;

proc gplot;/*画图*/ plot xf*year;

symbol v=square i=join c = red;/*图形特征,v表示点的形状,i表示图形连线的情况,c代表颜色*/

proc arima data = a;/*调用arima模块*/

identify var=xf nlag = 22;/*延迟阶数为22阶*/ run;

首先分析时序图:

xf1700016000150001400013000120001100010000900080007000600050004000300020001000019521954195619581960196219641966196819701972year19741976197819801982198419861988199019921994 由时序图可得,该时间序列显著递增,初步判断此序列不平稳。

再分析自相关图:

由自相关图中,自相关系数从正数缓慢递减为到零后,又不断在负值范围内增大,该序列自相关系数并未较快的衰减为零,因此该序列并非为平稳时间序列。 (2) 随机性检验:

选取结果中The ARIMA Procedure部分:

从运行结果得出,次统计量的P值均小于0.0001,则认为在0.05的显著水平下拒绝原假设,可以认为此序列为非随机序列。这说明我们可以根据历史是信息预测未来年份我国的社会消费品零售总额。 (3) 模型选取

原序列自相关系数拖尾,偏自相关系数一阶截尾,根据ARMA模型相关性特征表,应该选取AR(1)模型。

首先对其进行一阶差分: data a;/*a为数据名*/

input xf@@;/*lieche为变量名*/

year=intnx('year','1jan1952'd,_n_-1);/*intnx间隔取时间变量*/ format year year4.; /*年按四位数显示*/ dif1=dif(xf); cards;

262.7 328.8 356.1

364.0 424.0 441.6 481.2 556.5

595.4 537.7 543.7 544.8 572.7 590.1 632.8 679.1 649.2 698.2 728.8 776.9 853.5 917.7 967.4 1046.4 1099.0 1174.3 1264.9 1476.0 1794.0 2002.5 2181.5 2426.1 2899.2 3801.4 4374.0 5115.0 6534.6 7074.2 7250.3 8245.7 9704.8 12462.1 16264.7 ; run ;

proc gplot;/*画图*/ plot dif1*year ;

symbol v=square i=join c = red;/*图形特征,v表示点的形状,i表示图形连线的情况,c代表颜色*/

proc arima data = a;/*调用arima模块*/ identify var=xf ;

proc arima data = a;/*调用arima模块*/ identify var=dif1 ; run;

得到时序图如下:

dif140003000200010000-100019521954195619581960196219641966196819701972year19741976197819801982198419861988199019921994 又该图可以简单看出差分后,数据在某个数据间波动,范围有界,无明显趋势及周期性特征,初步判断一阶差分后序列平稳。

(4) 模型建立: 选取AR(1)摸型

data a;/*a?aêy?Y??*/ input xf@@;

year=intnx('year','1jan1952'd,_n_-1);/*intnx????è?ê±??±?á?*/ format year year4.; /*?ê°′????êy??ê?*/ dif1=dif(xf); cards;

?1?0??0.21?得相似矩阵: R??0.33?0.30??0.27?0.36?010.150.140.080.100.090.210.330.300.270.36?0.150.140.080.100.09??10.770.520.600.42??0.7710.530.610.43? 0.520.5310.690.68??0.600.610.6910.73?0.420.430.680.731??3、改造相似关系为等价关系进行聚类分析

矩阵R满足自反性和对称性,但不具有传递性,为求等价矩阵,要对R进行改造,只需求其传递闭包。由平方法可得

?1?0.15??0.36?RR?R2??0.36?0.36??0.36?0.36??1?0.15??0.36?R2??0.36?0.36??0.36?0.36??1?0.15??0.36?R4??0.36?0.36??0.36?0.36?8440.150.360.360.360.360.36?10.150.150.150.150.15??0.1510.770.600.610.60??0.150.7710.610.610.61? 0.150.600.6110.690.69??0.150.610.610.6910.73?0.150.600.610.690.731??0.150.360.360.360.360.36?10.150.150.150.150.15??0.1510.770.610.610.61??0.150.7710.610.610.61? 0.150.610.6110.690.69??0.150.610.610.6910.73??0.150.610.610.690.731?0.150.360.360.360.360.36?10.150.150.150.150.15??0.1510.770.610.610.61??0.150.7710.610.610.61? 0.150.610.6110.690.69??0.150.610.610.6910.73?0.150.610.610.690.731??R4?R4。

R4?R2R8?R4最后可得到R?R??R,它就是模糊等价矩阵。用其可对7个班级进行聚类分析。 故传递闭包为R令?由1降至0,写出R?,按R?分类元素ui和uj归同一类的条件是

R?(ui,uj)?1 (i,j?1,2,3,4,5,6,7)

?1?0??0?取?=1,则有R1??0?0??0?0?000000?100000??010000??001000? 000100??000010?000001??U可分7类{u1},{u2},{u3},{u4},{u5},{u6},{u7}。

降低置信水平?,对不同的?作同样分析,得到

取?=0.77, U可分6类{u1},{u2},{u3,u4},{u5},{u6},{u7}。 取?=0.73, U可分5类{u1},{u2},{u3,u4},{u5}, {u6,u7}。

取?=0.69, U可分4类{u1},{u2},{u3,u4}, {u5,u6,u7}。 取?=0.61, U可分3类{u1},{u2}, {u3,u4,u5,u6,u7}。 取?=0.36, U可分2类{u2}, {u2,u3,u4,u5,u6,u7}。 取?=0.15, U可分1类{u1,u2,u3,u4,u5,u6,u7}。

按不同的置信水平对7个班级进行模糊聚类,将会得到不同的分类结果

2015-21 模糊模式识别

生物学家发现DNA序列是由四种碱基A,T,C,G按一定顺序排列而成,其中既没有“断句”,也没有标点符号,同时也发现DNA序列的某些片段具有一定的规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这四个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。而在不用于编码蛋白质的序列片段中,A和T的含量特别多些。由此人工制造两类序列(A类编号为1~10;B类编号为11~20),现在问题是如何找出比较满意的方法来识别未知序列(编号为21~40),并判别他们各属于哪一类。数据见下面。

Art-model-data

1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg

2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga

3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga

4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga

5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag

6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca

7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg

8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg

9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg

10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg

11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt

12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa

13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc

14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta

15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa 16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat

17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc

18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt

19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa

20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat

21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga

22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg

23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc

24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt

25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca

26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac

27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag

28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga

29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc

30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta

31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt

32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctcttgggtttagtcattcccaaaagg

33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac

34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa

35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc

36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg

37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt

38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac

39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat

40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt

生物信息,4种字符组成64种不同的3字符串,大多数用于编码蛋白质的20中氨基酸,:难度在量大,不能遍历

方法1:利用A,T,C,G的百分含量,4维向量用模糊数学中的模糊聚类与模糊识别的方式来分类。

方法2:统计顺序3字符串的频数,64维向量分类

方法3:相同字母的间距表示波动,计算波动方差,发现g t的方差比可以做很好的区分 方法4:信息墒方法:每增加一个字符,计算最后一个字母,最后二个字母。。。最后6个字母(计算机确定6个比较好)分别所构成的串与前面最近的相同的串的距离表示信息增加量,越近增加量越小,综合6个串得到增加一个字母的综合的信息增加量,把增加每个字符的信息增加量相加,表示整个字符串的信息量。

方法5:神经网络方法碱基特征含量作为输入,类别作为输出

① 问题分析:提取已知类别的20个DNA序列的A,T,C,G的百分含量构成如下矩阵:X = (xij)20×4,其中xi1, xi2, xi3, xi4分别表示第个DNA系列中的A,T,C,G的百分含量. 采用切比雪夫距离法建立模糊相似矩阵,然后用传递闭包法进行聚类,动态聚类图如下.

② 确定最佳分类

将20个已知DNA序列分成如下3类为最佳: A1 ={1,2,3,5,6,7,8 9,10}, A2 ={4,17},

A3 ={11,12,13,14,15,16,18,19,20}. 建立标准模型库:A1, A2, A3. ③ 未知DNA序列的模糊识别 采用格贴近度公式:

0(A, B) =[A°B + (1 -A⊙B)]/2,

将隶属于A1的DNA序列归为A类,隶属于A3的DNA序列归为B类,隶属于A2的DNA序列归为非A,B类.

④ 结果:20个人工序列的类别

A类:22,23,25,27,29,34,35,36,37

本文来源:https://www.bwwdw.com/article/9jl7.html

Top