北京工业大学-数学建模7-数理统计实验201312

更新时间：2024-04-28 19:04:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

北京工业大学数学建模比赛推荐度：
相关推荐

数理统计实验作业

一、基本实验

1.区间估计

已知某种灯泡寿命服从正态分布，在某星期所生产的该灯泡中随机抽取10只，测得其寿命（单位：小时）为：

1067 919 1196 785 1126 936 918 1156 920 948

（1）试问这批灯泡中大约95%的灯泡至少使用多少小时；（2）求这批灯泡能够使用1000小时以上的概率。解：（1）输入数据，调用函数interval_estimate() 如下： X<-c(1067, 919, 1196, 785, 1126, 936, 918, 1156, 920, 948)

source(\interval_estimate(X, side=1) 运行结果为：

mean df a b 1 997.1 9 920.8443 Inf

所以，有95%的灯泡寿命在920.8443小时之上。即，该批灯泡中大约95%的灯泡至少使用920.8443小时。

（2）由题意可知，X由于??997.1,?2?X??N(?,?2) ，

?N(0,1)

1(x?997.1)2?124.7972 ?8所以，Z??(1000?997.1)/124.797?0.023238。计算分布函数： pnorm(0.023238) [1] 0.5092698

Z?1000?997.1)??f(t)dt 由于pnorm(0.023238)?F(??124.797故大于1000小时的概率为，1- pnorm(0.023238)=0.49073=49.073% 可知，这批灯泡使用1000小时以上的概率是49.073%。 2.假设检验I

正常男子血小板计数均值为225*109/L,今测得20名男性油漆作业工人的血小板计数值（单位： 109/L）

220 188 162 230 145 160 238 188 247 113 126 245 164 231 256 183 190 158 224 175

问油漆工人的血小板计数与正常成年男子有无差异，并说明油漆作业对人体血小板计数是否有影响？

解：设原假设为H0:油漆工人的平均血小板为225*109/L，

对立假设H1: 油漆工人的平均血小板不为225*109/L 输入数据，调用函数t.test() 得到：

>X<-c(220, 188, 162, 230, 145, 160, 238, 188, 247, 113,

126, 245, 164, 231, 256, 183, 190, 158, 224, 175) >t.test(X, alternative=\R软件运行结果为 data: X

t = -3.4783, df = 19, p-value = 0.002516

alternative hypothesis: true mean is not equal to 225 95 percent confidence interval: 172.3827 211.9173 sample estimates: mean of x 192.15

由于p-value = 0.002516<<0.05,故拒绝原假设H0。且置信区间为[172.3827 ,211.9173], 区间上下限明显小于均值225.因此可以认为油气作业对人体血小板计数有显著影响。 3.假设检验II

为研究国产四类新药阿卡波糖胶囊效果，某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组（阿卡波糖胶囊组）和对照组（拜糖平胶囊组），分别测得实验开始前和8周后空腹血糖，算得空腹血糖下降值如表下：

试验组 -0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 对照组 3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00

（1）假设数据服从正态分布，试用t检验（讨论方差相同和方差不同两种情况）和成对t检验来判断:国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果是否相同？并分析三种检验方法各自的优越性。

（2）检验试验组和对照组的数据的方差是否相同？

解：（1）设两组样本相互独立，分别服从正态分布：N(?1,?12),N(?2,?22)

假设?12??22：

根据题意，假设H0:?1??2,H1:?1??2，选择t检验，方差相同的情况： X<-c(-0.70, -5.60, 2.00, 2.80, 0.70, 3.50, 4.00, 5.80, 7.10, -0.50, 2.50, -1.60, 1.70, 3.00, 0.40, 4.50, 4.60, 2.50, 6.00, -1.40) Y<-c(3.70, 6.50, 5.00, 5.20, 0.80, 0.20, 0.60, 3.40, 6.60, -1.10, 6.00, 3.80, 2.00, 1.60, 2.00, 2.20, 1.20, 3.10, 1.70, -2.00) t.test(X,Y, var.equal = TRUE) 带入R软件，运行得到： Two Sample t-test

data: X and Y

t = -0.6419, df = 38, p-value = 0.5248

alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.326179 1.206179 sample estimates: mean of x mean of y 2.065 2.625

由于p-value = 0.5248>0.05,故接受原假设，即认为国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果一致。

假设?12??22：

带入R软件，运行得到： Welch Two Sample t-test

data: X and Y

t = -0.6419, df = 36.086, p-value = 0.525

alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.32926 1.20926 sample estimates: mean of x mean of y 2.065 2.625

由于p-value = 0.525>0.05,故接受原假设，即认为国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果一致。

成对t检验：

根据题意，假设H0:?1??2,H1:?1??2，进行成对数据t检验： X<-c(-0.70, -5.60, 2.00, 2.80, 0.70, 3.50, 4.00, 5.80, 7.10, -0.50, 2.50, -1.60, 1.70, 3.00, 0.40, 4.50, 4.60, 2.50, 6.00, -1.40) Y<-c(3.70, 6.50, 5.00, 5.20, 0.80, 0.20, 0.60, 3.40, 6.60, -1.10, 6.00, 3.80, 2.00, 1.60, 2.00, 2.20, 1.20, 3.10, 1.70, -2.00) t.test(X,Y, paired=T) 带入R软件，运行得到： Paired t-test data: X and Y

t = -0.6464, df = 19, p-value = 0.5257

alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.373146 1.253146 sample estimates: mean of the differences -0.56

p-value = 0.5257>0.05,故接受原假设，即认为国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果一致。

三种方法最后的判定结果是一致的，三种方法的置信区间为：方差相同的置信区间： [-2.32926, 1.20926] 方差不同的置信区间：[-2.32926, 1.20926] 成对数据的置信区间：[-2.373146, 1.253146]

可见，方差相同与方差不同时的置信区间相同，成对数据的置信区间较大，效果不如其他两种方法，究其原因是两组数据的主体是独立的不是真正意义的成对数据。

（2）我们调用var.test()函数，来检验两个总体方差是否相同，命令如下： X<-c(-0.70, -5.60, 2.00, 2.80, 0.70, 3.50, 4.00, 5.80, 7.10, -0.50, 2.50, -1.60, 1.70, 3.00, 0.40, 4.50, 4.60, 2.50, 6.00, -1.40) Y<-c(3.70, 6.50, 5.00, 5.20, 0.80, 0.20, 0.60, 3.40, 6.60, -1.10, 6.00, 3.80, 2.00, 1.60, 2.00, 2.20, 1.20, 3.10, 1.70, -2.00) var.test(X,Y) 运行结果为：

F test to compare two variances data: X and Y

F = 1.5984, num df = 19, denom df = 19, p-value = 0.3153 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6326505 4.0381795 sample estimates:

ratio of variances 1.598361

由于p-value = 0.3153>>0.05,故接受原假设，认为检验组和试验组两总体的方差是相同的。

4.假设检验III

某医院研究乳腺癌家族史对于乳腺癌发病率的影响。假设调查了10000名50-54岁的妇女，她们的母亲曾有乳腺癌。发现她们在那个生存期的某个时刻有400例乳腺癌，而全国在该年龄段的妇女乳腺癌的患病率为2%，这组数据能否说明乳腺癌的患病率与家族遗传有关。

解：调用函数binom.test()进行二项分布总体的假设检验

根据题意，所检验的问题为：

H0:p?p0?0.02,H1:p?p0

调用binom.test()函数： >binom.test(400,10000,p=0.02) 检验结果为：

Exact binomial test data: 400 and 10000

number of successes = 400, number of trials = 10000, p-value < 2.2e-16

alternative hypothesis: true probability of success is not equal to 0.02 95 percent confidence interval: 0.03624378 0.04402702 sample estimates: probability of success 0.04

由于p-value <2.2e-16<<0.05，故拒绝原假设，即认为乳腺癌的患病率与家族遗传显著有关。

5.分布检验I

Mendel用豌豆的两对相对性状进行杂交实验，黄色圆滑种子与绿色皱缩种子的豌豆杂交后，第二代根据自由组合规律，理论分离比为：

黄圆：黄皱：绿圆：绿皱=9/16:3/16:3/16:1/16

实际实验值为：黄圆315粒，黄皱101粒，绿圆108粒，绿皱32粒，共556粒，问此结果是否符合自由组合规律？解：根据题意，

H0:p1?9331,p2?,p3?,p4?. 16161616调用chisq.test()函数，其命令如下： >chisq.test(c(315,101,108,32),p=c(9,3,3,1)/16) Chi-squared test for given probabilities data: c(315, 101, 108, 32)

X-squared = 0.47, df = 3, p-value = 0.9254

由于p-value = 0.9254>>0.05,故接受原假设，此结果符合自由组合规律。

6.分布检验II

观察每分钟进入某商店的人数X,任取200分钟，所得数据如表7.1所示，试分析，能否认为每分钟顾客数X服从Possion分布（α=0.1）

表7.1 数据表

顾客人数 0 频数 92 1 68 2 28 3 11 4 1 5 0 解：假设：H0:每分钟顾客数服从泊松分布

编写相应的计算程序如下： X<-0:5; Y<-c(92,68,28,11,1,0)

q<-ppois(X,mean(rep(X,Y)));n<-length(Y) ####其中mean(rep(X,Y))为样本均值 p<-q[1];p[n]<-1-q[n-1] for(i in 2:(n-1)) p[i]<-q[i]-q[i-1]

chisq.test(Y, p=p) 运行结果如下：

Chi-squared test for given probabilities data: Y

X-squared = 2.1596, df = 5, p-value = 0.8267 Warning message:

In chisq.test(Y, p = p) : Chi-squared approximation may be incorrect

出现了警告，究其原因是由于顾客为4人和5人对应的频数小于5，故将4人、5人与3人的情况合并，调整运行程序：

Z<-c(92,68,28,12)

n<-length(Z);p<-p[1:n-1];p[n]<-1-q[n-1] chisq.test(Z, p=p) 运行结果为：

Chi-squared test for given probabilities

data: Z

X-squared = 0.9113, df = 3, p-value = 0.8227

由于p-value = 0.8227>>0.05,故接受原假设，可以认为每分钟顾客数X服从Possion分布。

7.分布检验III

一般认为长途电话通过电话总机的过程是一个随机过程，其间打进电话的时间间隔服从指数分布。某个星期下午1:00以后最先打进的10个电话的时间为：

1:06 1:08 1:16 1:22 1:23 1:34 1:44 1:47 1:51 1:57

试用Kolmogorov-Smirnov检验分析打进电话的时间间隔是否服从指数分布。解：打进电话的时间间隔（分钟）依次为：

6 2 8 6 1 11 10 3 4 6 将时间间隔按照由小到大排序为： 1 2 3 4 6 6 6 8 10 11 均值为5.7

下面检验时间间隔是否服从??1/5.7的指数分布：假设：H0: 时间间隔服从指数分布

输入数据，调用ks.test()函数，其命令如下：

X<-c(1, 2, 3, 4, 6, 6, 6, 8, 10, 11)

ks.test(X, \运行结果为：

One-sample Kolmogorov-Smirnov test data: X

D = 0.251, p-value = 0.5545 alternative hypothesis: two-sided Warning message: In ks.test(X, \

ties should not be present for the Kolmogorov-Smirnov test

运行结果出现了警告，数据中出现相同的值。对程序进行调整：

X<-c(1, 2, 3, 4, 6, 8, 10, 11)

ks.test(X, \运行结果为：

One-sample Kolmogorov-Smirnov test data: X

D = 0.1742, p-value = 0.9357 alternative hypothesis: two-sided

可见，调整前后P值都大于0.05，故接受原假设，认为打进电话的时间间隔服从指数分布

8.列联表检验I

向120名女性和120名男性做调查，了解他们关于给谁买节日礼物最难的看法，调查结果如表7.2所示。试分析：女性和男性在关于给谁买节日礼物最难的看法上有没有显著差异。

表7.2 关于给谁买节日礼物最难的看法

给谁买节日礼物最难性别女性男性配偶 28 42 父母 34 31 子女 23 9 兄弟姐妹 7 11 姻亲 13 7 其他亲属 15 20 解：假设：H0:男性女性在看法上是独立的，即没有显著差异。

H1:看法上有显著差异。

输入数据，调用chisq.test做列联表独立性检验： x<-scan() 28 34 23 7 13 15 42 31 9 11 7 20

X<-matrix(x, nc=4, nr=2, byrow=T) chisq.test(X) 运行结果为：

Pearson's Chi-squared test data: X

X-squared = 33.2194, df = 3, p-value = 2.895e-07

由于P值<<0.05，故拒绝原假设的独立性，即女性和男性在关于给谁买节日礼物最难的看法上是相关的，有显著差异。

9.列联表检验II

为研究人脑的左右半球恶性肿瘤的发病率是否有显著差异，对人脑恶性肿瘤和良性肿瘤的发病情况做了调查，调查结果如表7.3所示。试进行分析。

表7.3 人脑左右半球恶性肿瘤和良性肿瘤的发病情况

左半球右半球合计良性 9 1 10 恶性 3 3 6 合计 12 4 16 解：假设：H0:人脑左右半球恶性肿瘤发病率独立，即没有显著差异。

H1:人脑左右半球恶性肿瘤发病率相关，即有显著差异。

因为有3处单元的频数小于5，故用Fisher检验：输入数据并进行Fisher检验： x<-matrix(c(9,1,3,3),nc=2) fisher.test(x) 运行结果为：

Fisher's Exact Test for Count Data

data: x p-value = 0.1181

alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.4313171 521.0928115

sample estimates: odds ratio 7.63506

由于P值=0.1181>0.05,接受原假设的独立性，并且区间估计得到的区间包含1，由此说明两变量是独立的，即认为人脑的左右半球恶性肿瘤的发病率是独立的，没有显著差异。

10. Wilcoxon秩和检验I

（1）为了了解新的数学教学方法的效果是否比原来方法的效果有所提高，从水平相当的10名学生中随机地各选5名接受新方法和原方法的教学实验。专家对10名学生的数学能力给予综合评估，并按其数学能力由弱到强排序如下：新方法原方法 1 2 3 4 5 6 7 8 9 10 对α=0.05,检验新方法是否比原方法显著地提高了教学效果。（2）若新方法与原方法得到排序结果改为：新方法原方法 1 2 3 4 5 6 7 8 9 10 能否说明新方法比原方法显著提高了教学效果？

解：（1）由于样本本身就是秩次统计量，只能做Wilcoxon秩和检验。

由于Wilcoxon秩和检验本质只需排出样本的秩次，题目中数据本身就是一个排序，可以直接使用：

假设H0:新方法未显著提高教学效果， H1: 新方法显著提高教学效果。 x<-c(3,5,7,9,10);y<-c(1,2,4,6,8) wilcox.test(x,y,alternative=\ 运行结果为：

Wilcoxon rank sum test data: x and y

W = 19, p-value = 0.1111

alternative hypothesis: true location shift is greater than 0

P值=0.1111>0.05,故接受原假设，新方法比原方法未显著提高教学效果。（2）假设H0:新方法未显著提高教学效果， H1: 新方法显著提高教学效果。 x<-c(4,6,7,9,10);y<-c(1,2,3,5,8) wilcox.test(x,y,alternative=\ Wilcoxon rank sum test data: x and y

W = 21, p-value = 0.04762

alternative hypothesis: true location shift is greater than 0

由于P值=0.047621<0.05,故拒绝原假设，可以说明新方法比原方法显著提高了教学效果。

11.Wilcoxon秩和检验II

为比较一种新疗法对某种疾病的治疗效果，将40名患者随机地分为两组，每组20人，一组采用新疗法，另一组用原标准疗法。经过一段时间的治疗后，对每个患者的疗效做仔细的评估，并划分为差、较差、一般、较好和好五个等级。

两组中处于不同等级的患者人数如表7.4所示。试分析，由此结果能否认为新方法的疗效显著地优于原疗法（α=0.05）。

表7.4 不同方法治疗后的结果

等级新疗法组原疗法组差 0 2 较差 1 2 一般 9 11 较好 7 4 好 3 1 解：可以想象，各病人的疗效用5个不同的值表示（1表示差，2表示较差，3表示一般，4表示较好，5表示好）这样就可以为这40名病人排序。因此可以用Wilcoxon秩和检验来分析问题。

假设原假设H0:新疗法未显著优于原疗法 H1:新疗法显著优于原疗法。

x<-rep(1:5,c(0,1,9,7,3));y<-rep(1:5,c(2,2,11,4,1)) wilcox.test(x,y,exact=FALSE)

####由于数据有“连结”存在，无法精确计算P值，其参数为exact=FALSE. 运行结果为：

Wilcoxon rank sum test with continuity correction data: x and y