数学建模作业 实验7多元分析实验

更新时间:2024-01-20 13:53:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实验7 多元分析实验 1. 回归分析 解:(1) 根据题意,对数据利用R软件作出散点图 > x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)

> y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493) > plot(x,y, xlab=\得到如下图像:

Y1500200025003000456X789

分析图像,数据点大致落在一条直线附近,说明变量x和y之间大致可看作线性关系,假定有如下结构式: y=β0+β1x+ε

其中β0和β1是未知常数,为回归系数,ε为其它随机因素对灌溉面积的影响,ε服从正态分布N(0,σ2)。

利用R软件进行一元线性回归分析,并提取相应的计算结果: > x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)

> y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493) > lm.sol<-lm(y ~ 1+x) > summary(lm.sol) 得到如下结果: Call:

lm(formula = y ~ 1 + x)

Residuals:

Min 1Q Median 3Q Max

-128.591 -70.978 -3.727 49.263 167.228

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 140.95 125.11 1.127 0.293 x 364.18 19.26 18.908 6.33e-08 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 96.42 on 8 degrees of freedom

Multiple R-squared: 0.9781, Adjusted R-squared: 0.9754 F-statistic: 357.5 on 1 and 8 DF, p-value: 6.33e-08

Estimate项中给出了回归方程的系数估计,即β0=140.95;β1=364.18 观查其中的评价参数易知对于β0项的估计并不是很准确,不显著。 但该方程总体通过了F统计数的检验,其p值为6.33e-08<0.05 由此得到的回归方程为:Y=140.95+364.18X

(2)若现测得今年的数据是X=7米,则有X=X0=7,置信水平为0.95,此时利用R软件求解,编程如下:

> new<-data.frame(x=7) > predict(lm.sol,new,

+ interval=\+ level=0.95) 得到如下结果:

fit lwr upr

1 2690.227 2454.971 2925.484

得到灌溉面积的预测值为2690.227、预测区间2454.971和置信区间(α=0.05)为2925.484。

(3)利用R软件做出图像并保存,编程如下: 先重复回归线性分析:

> x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)

> y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493) > plot(x,y, xlab=\>

> lm.sol<-lm(y ~ 1+x) > summary(lm.sol) 做出图像:

> abline(lm.sol, lwd=2, col=\

> segments(x, fitted(lm.sol), x, y, lwd=2, col=\标注图像:

> ex1<-expression(paste(\> ex2<-expression(paste(\>

> points(x[8], fitted(lm.sol)[8], pch=19, cex=1.4, col=\

> text(c(5.7, 5.7), c(2400, 2100), labels = c(ex1, ex2)) 保存图像:

> savePlot(\

最终得到的图像如图所示:

25003000(xi,yi)^)(xi,yiY15002000456X789

由图像可以直观看出此线性回归的拟合对于前4年的拟合误差比较大,误差最大的是第2年。对于后6年的拟合是比较吻合的。

2. 回归分析和逐步回归 解:

(1)首先根据题意建立多元线性回归方程:

Y=β0+β1X1+β2X2+β3X3+ε

利用R软件进行求解,使用lm()函数,用函数summary()提取信息,写出R程序:

> import<-data.frame(

+ X1=c(0.4,0.4,3.1,0.6,4.7,1.7,9.4,10.1,11.6,12.6,10.9,23.1,23.1,21.6,23.1,1.9,26.8,29.9), + X2=c(52,23,19,34,24,65,44,31,29,58,37,46,50,44,56,36,58,51),

+ X3=c(158,163,37,157,59,123,46,117,173,112,111,114,134,73,168,143,202,124), + Y= c(64,60,71,61,54,77,81,93,93,51,76,96,77,93,95,54,168,99) + )

> lm.sol<-lm(Y~X1+X2+X3, data=import) > summary(lm.sol) 得到如下结果: Call:

lm(formula = Y ~ X1 + X2 + X3, data = import)

Residuals:

Min 1Q Median 3Q Max -28.349 -11.383 -2.659 12.095 48.807

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 43.65007 18.05442 2.418 0.02984 * X1 1.78534 0.53977 3.308 0.00518 ** X2 -0.08329 0.42037 -0.198 0.84579 X3 0.16102 0.11158 1.443 0.17098 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.97 on 14 degrees of freedom

Multiple R-squared: 0.5493, Adjusted R-squared: 0.4527 F-statistic: 5.688 on 3 and 14 DF, p-value: 0.009227

所以得到回归方程为:

Y=43.65007 +1.78534X1 -0.08329X2+0.16102X3

p-值为0.009227<0.05方程本身是通过检测的,各项系数的检验结果为:

常数项显著;X1项系数很显著;X2项系数不显著;X3项系数不显著。有两项系数没有通过检验,总体来说拟合并不理想。(2) 利用R软件进行逐步回归:

> lm.step<-step(lm.sol)

得到如下结果: Start: AIC=111.27 Y ~ X1 + X2 + X3

Df Sum of Sq RSS AIC - X2 1 15.7 5599.4 109.32 5583.7 111.27 - X3 1 830.6 6414.4 111.77 - X1 1 4363.4 9947.2 119.66

Step: AIC=109.32 Y ~ X1 + X3

Df Sum of Sq RSS AIC 5599.4 109.32 - X3 1 833.2 6432.6 109.82 - X1 1 5169.5 10768.9 119.09

从程序的运行结果可以看到,用全部变量作回归方程时,AIC值为111.27。如果去

掉变量X2,则相应的AIC值为109.32;如果去掉变量X3则相应的AIC值为111.77;如果去掉变量X1则相应的AIC值为119.66。软件去掉X2项,进入下一轮运算,给出结果:

> summary(lm.step) 得到运算结果: Call:

lm(formula = Y ~ X1 + X3, data = import)

Residuals:

Min 1Q Median 3Q Max -29.713 -11.324 -2.953 11.286 48.679

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 41.4794 13.8834 2.988 0.00920 ** X1 1.7374 0.4669 3.721 0.00205 ** X3 0.1548 0.1036 1.494 0.15592 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 19.32 on 15 degrees of freedom

Multiple R-squared: 0.5481, Adjusted R-squared: 0.4878 F-statistic: 9.095 on 2 and 15 DF, p-value: 0.002589

此时回归系数检验的水平已有显著提升,但X3项系数仍然不显著。 利用drop1()函数计算: > drop1(lm.step)

得到如下结果: Single term deletions

Model: Y ~ X1 + X3

Df Sum of Sq RSS AIC 5599.4 109.32 X1 1 5169.5 10768.9 119.09 X3 1 833.2 6432.6 109.82

此时的结果说明,去掉X3项的时候,AIC值和残差平方值上升都是最小的,因此去掉X3项再次做线性回归:

> lm.opt<-lm(Y~X1,data=import); > summary(lm.opt) 得到结果如下: Call:

lm(formula = Y ~ X1, data = import)

Residuals:

Min 1Q Median 3Q Max -31.486 -8.282 -1.674 5.623 59.337

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 59.2590 7.4200 7.986 5.67e-07 *** X1 1.8434 0.4789 3.849 0.00142 ** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 20.05 on 16 degrees of freedom

Multiple R-squared: 0.4808, Adjusted R-squared: 0.4484 F-statistic: 14.82 on 1 and 16 DF, p-value: 0.001417

此时常数项的检测结果为极为显著,X1项系数为很显著。方程式P-值为0.001417<0.05且比之前的值都低。

X1 由此得到了最优回归方程:Y?59.259?1.8434

3. 方差分析I 解:

(1)首先提出假设H0不同饲料的小鼠肝中铁含量无显著差异,μ1=μ2=μ3;H1不同饲料的小鼠

肝中铁含量有显著差异,μ1,μ2,μ3不全相等。

使用R软件求解,用数据框的格式输入数据,调用aov()函数计算方差分析,编程如下: > mouse<-data.frame(

+ X=c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23, 2.63, + 0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59, 6.96, + 2.07, 3.72, 4.50, 4.90, 6.00, 6.84, 8.23, 10.33), + A=factor(rep(1:3, c(8,8,8))) + )

> mouse.lm<-lm(X ~ A, data=mouse) > anova(mouse.lm) 得到如下结果:

Analysis of Variance Table

Response: X

Df Sum Sq Mean Sq F value Pr(>F) A 2 73.118 36.559 9.104 0.001422 ** Residuals 21 84.329 4.016 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.从结果中看到P-值为0.001422<0.05,因此原

假设是不成立的,拒绝H0,即不同饲料的小鼠肝中铁含量有显著差异。

?(2) 继续使用R软件来分析哪些水平之间有显著差异。 首先计算数据在各水平下的均值: > attach(mouse) > tapply(X, A, mean)

得到如下结果:

1 2 3 1.60625 3.10750 5.82375

可以看出不同饲料喂食下的小鼠肝中铁含量的均值已有明显差异。 再做多重t检测: > pairwise.t.test(X, A) 得到如下结果:

Pairwise comparisons using t tests with pooled SD

data: X and A

1 2 2 0.1489 - 3 0.0012 0.0262

P value adjustment method: holm

由计算结果得出结论,μ1与μ3、μ2与μ3是有显著差异的,而μ1与μ2没有显著差异。即

是说,喂食饲料A和喂食饲料B情况下小鼠肝中铁含量有显著差异;喂食饲料B和喂食饲料C情况下小鼠肝中铁含量有显著差异;喂食饲料A和喂食饲料B情况下小鼠肝中铁含量无显著差异。

进一步,使用plot()函数画出线箱图并保存: > plot(X~A, col=5:7,

+ main=\> detach(mouse) >

> savePlot(\

Box-and-Whisker Plot of Mouse Data10X246812A3

可以直观看到数据的水平及各因素之间的差异。

(3) 根据题意,先编写程序,做Shapiro-Wilk正态性检验 > attach(mouse)

> tapply(X,A,shapiro.test)

得到如下结果: $`1`

Shapiro-Wilk normality test

data: X[[1L]]

W = 0.8742, p-value = 0.1656 $`2`

Shapiro-Wilk normality test

data: X[[2L]]

W = 0.8893, p-value = 0.2306

$`3`

Shapiro-Wilk normality test

data: X[[3L]]

W = 0.985, p-value = 0.9833

结果显示三组数据均数据满足正态性。 再用Bartlett函数做方差齐性检验: > attach(mouse) > bartlett.test(X, A) 得到如下结果:

Bartlett test of homogeneity of variances

data: X and A

Bartlett's K-squared = 10.5677, df = 2, p-value = 0.005073

从结果中看到p-值为0.005073<0.05因此认为数据并不满足方差齐性。

对于只满足正态性,不满足齐性要求的数据,用函数oneway.test()作方差分析: > oneway.test(X~A, data=mouse)

得到方差的分析结果:

One-way analysis of means (not assuming equal variances)

data: X and A

F = 10.3592, num df = 2.00, denom df = 10.51, p-value = 0.003271

此时P-值较第一问计算时的结果有所增大,但是仍然满足p-值<0.05因此可以认为原假设是

不成立的,拒绝H0,即不同饲料的小鼠肝中铁含量有显著差异。

4. 方差分析II 解:

(1)设有A、B两个因素,因素A有3个水平A1、A2、A3,因素B有3个水平B1、B2、

B3。

利用R软件来进行判断:

> tree.aov <- aov(Y ~ A+B+A:B, data=tree) > factory<-data.frame(

+ Y=c(4.6,4.3,6.1,6.5,6.8,6.4,6.3,3.7,3.4, + 3.8,4.0,3.8,4.7,4.3,3.9,3.5,6.5,7.0), + B=gl(3,6,18), + A=gl(3,2,18) + )

> factory.aov<-aov(Y~A+B+A:B,data=factory) > summary(factory.aov) 得到结果:

Df Sum Sq Mean Sq F value Pr(>F)

A 2 5.408 2.704 6.130 0.02090 * B 2 7.841 3.921 8.888 0.00740 ** A:B 4 12.192 3.048 6.910 0.00793 ** Residuals 9 3.970 0.441 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

结果显示有交互作用时在显著水平0.05下,因素A(反应温度)效应显著,而因素B(反应

压力)和交互效应很显著。

(2)使用R软件求解各种反应温度下产量均值的估计: > attach(factory) > tapply(Y, A, mean)

得到如下结果:

1 2 3 4.650000 4.533333 5.750000

计算各种反应压力下产量均值的估计: > tapply(Y, B, mean)

得到如下结果:

1 2 3 5.783333 4.166667 4.983333

计算同时考虑温度和压力下产量均值的估计: > matrix(tapply(Y, A:B, mean), nr=3, nc=3, byrow=T, + dimnames=list(levels(A), levels(B)))

得到如下结果:

1 2 3 1 4.45 5.0 4.50 2 6.30 3.6 3.70 3 6.60 3.9 6.75

(3) 从第一问结果因素A(反应温度)效应显著、而因素B(反应压力)和交互效应很显著

来看第二问得到的数据即可得到答案。 各种反应温度下产量均值中3条件下最多; 各种反应压力下产量均值中1条件下最多;

交互效应下3、3条件的产量均值最多,且高于单独作用时的产量均值; 综合看来,选用3、3条件是最佳的,即采用80℃的反应温度

3公斤的反应压力时对生产最有利。

7.3 加分实验 解:

根据题意,明确解题思路,要解决的问题是:是否有理由认为某一厂家的产品比其他厂家的

产品更“有营养”(高蛋白、低脂肪、高纤维、低糖等)?也就是研究营养成分在不同厂家之间是否有显著性差异。营养成分数据都是定量数据,因此可以采用方差分析的思想来解决这个问题。

为了数据表示的方便,我们将厂家A、B、C分别用数字1、2、3来表示。

由于数据量比较大,解答过程用SPSS软件进行计算,而没有选用R软件。分析过程的显著

性α统一设定为0.05. 解答过程:

1. 先对数据做方差齐性检验,计算结果如下表所示: 方差齐性检验 热量 蛋白质 脂肪 钠 纤维 碳水化合物 糖 钾 Levene 统计量 df1 6.665 1.676 6.045 7.146 2.428 .917 .729 3.266 2 2 2 2 2 2 2 2 df2 40 40 40 40 40 40 40 40 显著性 .003 .200 .005 .002 .101 .408 .489 .049

由上表可以看出,在0.05的显著性水平下,热量、脂肪、钠、钾三个变量没有通过方差齐

性检验,其它都是方差齐性的。

因此对热量、脂肪、钠、钾三个变量做方差非齐性的方差分析,其余变量做方差齐性的方差

分析模型。

2. 方差分析

(1)方差齐性变量的方差分析结果:

ANOVA 蛋白质 组间 组内 总数 纤维 组间 组内 总数 碳水化合物 组间 组内 总数 糖 组间 平方和 .682 62.016 62.698 10.884 125.088 135.972 130.318 630.868 761.186 47.564 df 2 40 42 2 40 42 2 40 42 2 均方 .341 1.550 5.442 3.127 65.159 15.772 23.782 F .220 1.740 4.131 1.165 显著性 .804 .189 .023 .322 组内 总数 816.715 864.279 40 42 20.418 从结果可以看出,在0.05的显著性水平下,三个厂商在碳水化合物上有显著性差异,其余

变量没有显著性差异。

下面进一步进行两两比较分析,看不同厂商的差异程度,如下表所示: 多重比较 因变量 (I) 厂商 (J) 厂商 均值差 (I-J) 标准误 1 2 3 *. 均值差的显著性水平为 0.05。

从上表看出:碳水化合物,厂商1和厂商3有显著性差异,厂商2与厂商3有显著性差异,

厂商1和厂商2没有显著性差异。

其均值图为:

2 3 碳水化合物 LSD 1 3 1 2 -.6618 4.5882* .6618 5.2500* -4.5882* -5.2500* 1.3101 1.8858 1.3101 1.8486 1.8858 1.8486 显著性 .616 .020 .616 .007 .020 .007 95% 置信区间 下限 -3.310 .777 -1.986 1.514 -8.400 -8.986 上限 1.986 8.400 3.310 8.986 -.777 -1.514

(2)方差非齐性变量的方差分析结果:针对热量、脂肪、钠、钾三个变量。 主体间效应的检验 源 因变量 III 型平方和 热量 校正模型 脂肪 钾 钠 热量 截距 脂肪 钾 钠 热量 厂商 脂肪 钾 钠 热量 误差 脂肪 钾 钠 热量 总计 脂肪 钾 钠 热量 校正的总计 脂肪 钾 钠 2237.510a 4.035b 5163.382c 50024.129d 352416.274 37.604 200603.050 862181.118 2237.510 4.035 5163.382 50024.129 12874.118 22.942 178397.083 213516.569 515800.000 68.000 490000.000 1663950.000 15111.628 26.977 183560.465 263540.698 df 2 2 2 2 1 1 1 1 2 2 2 2 40 40 40 40 43 43 43 43 42 42 42 42 均方 1118.755 2.017 2581.691 25012.065 352416.274 37.604 200603.050 862181.118 1118.755 2.017 2581.691 25012.065 321.853 .574 4459.927 5337.914 F 3.476 3.517 .579 4.686 1094.961 65.563 44.979 161.520 3.476 3.517 .579 4.686 Sig. .041 .039 .565 .015 .000 .000 .000 .000 .041 .039 .565 .015 主体间效应的检验 源 因变量 III 型平方和 热量 校正模型 脂肪 钾 钠 热量 截距 脂肪 钾 钠 热量 厂商 脂肪 钾 钠 热量 误差 脂肪 钾 钠 热量 总计 脂肪 钾 钠 热量 校正的总计 脂肪 钾 钠 2237.510a 4.035b 5163.382c 50024.129d 352416.274 37.604 200603.050 862181.118 2237.510 4.035 5163.382 50024.129 12874.118 22.942 178397.083 213516.569 515800.000 68.000 490000.000 1663950.000 15111.628 26.977 183560.465 263540.698 df 2 2 2 2 1 1 1 1 2 2 2 2 40 40 40 40 43 43 43 43 42 42 42 42 均方 1118.755 2.017 2581.691 25012.065 352416.274 37.604 200603.050 862181.118 1118.755 2.017 2581.691 25012.065 321.853 .574 4459.927 5337.914 F 3.476 3.517 .579 4.686 1094.961 65.563 44.979 161.520 3.476 3.517 .579 4.686 Sig. .041 .039 .565 .015 .000 .000 .000 .000 .041 .039 .565 .015 a. R 方 = .148(调整 R 方 = .105) b. R 方 = .150(调整 R 方 = .107) c. R 方 = .028(调整 R 方 = -.020) d. R 方 = .190(调整 R 方 = .149) 从上表可以看出,在0.05的显著性水平下,不同厂商的热量、脂肪、钠均有显著性差异,但钾的含量没有显著性差异。

下面进行两两多重比较: 成对比较 因变量 (I) 厂商 (J) 厂商 均值差值 (I-J) 标准 误差 Sig.a 热量 1 2 3 -.412 20.588* 5.918 8.519 .945 .020 差分的 95% 置信区间a 下限 -12.373 3.371 上限 11.549 37.806 2 3 1 2 3 1 2 3 1 3 1 2 2 3 1 3 1 2 2 3 1 3 1 2 .412 21.000* -20.588* -21.000* .585* -.098 -.585* -.683 .098 .683 18.029 105.196* -18.029 87.167* -105.196* -87.167* 5.918 8.351 8.519 8.351 .250 .360 .250 .353 .360 .353 24.102 34.694 24.102 34.008 34.694 34.008 .945 .016 .020 .016 .024 .787 .024 .060 .787 .060 .459 .004 .459 .014 .004 .014 -11.549 4.123 -37.806 -37.877 .080 -.825 -1.090 -1.396 -.629 -.029 -30.682 35.078 -66.741 18.434 -175.315 -155.900 12.373 37.877 -3.371 -4.123 1.090 .629 -.080 .029 .825 1.396 66.741 175.315 30.682 155.900 -35.078 -18.434 脂肪 钠 基于估算边际均值 a. 对多个比较的调整: 最不显著差别(相当于未作调整)。 *. 均值差值在 .05 级别上较显著。 从上表发现,(1)热量:厂商1与厂商2没有显著性差异,厂商1与厂商3有显著性差异,

厂商2与厂商3有显著性差异。(2)脂肪:厂商1与厂商2有显著性差异,厂商1与厂商3没有显著性差异,厂商2与厂商3差异性不明显(0.06)。(3)钠:厂商1与厂商2没有显著性差异,厂商1与厂商3有显著性差异,厂商2与厂商3有显著差异。

其均值图为:

3. 结论:

从上面的分析可以看出

总体结论 热量 蛋白质 脂肪 钠 纤维 糖 钾

方差齐性 非齐性 齐性 非齐性 非齐性 齐性 齐性 非齐性

总体显著性 厂商分类第一组 显著 不显著 显著 显著 不显著 显著 不显著 不显著

1、2 3、1 1、2 1、2 第二组 3 2 3 3 碳水化合物 齐性

(1)从营养成分看,三个厂商在蛋白质、纤维、糖、钾四个成分上没有显著性差异; (2)厂商1和厂商2在热量和碳水化合物上的含量明细高于厂商3,厂商1和厂商2则没

有显著性差异;

(3)厂商3和厂商1在脂肪含量上明细高于厂商2;厂商3和厂商1则没有显著性差异; 总体来看,(1)厂商1和厂商2的比厂商3更加有营养;(2)厂商2与厂商1相比是低脂肪

的,因此更加科学,也更加营养;(3)厂商3的特点是低热量、低钠、低碳水化合物,比较适合减肥的客户。

本文来源:https://www.bwwdw.com/article/2rbo.html

Top