抽样调查习题集

更新时间：2024-06-22 04:52:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

《抽样调查》习题

第一章概述

1.1 什么是概率抽样？什么是非概率抽样？它们各有什么优点？ 1.2 怎样理解抽样调查的科学性? 1.3 抽样调查基础理论及其意义； 1.4 抽样调查的特点。

第二章抽样调查基本原理

2.1 试说明以下术语或概念之间的关系与区别； 1.总体、样本与个体； 2.总体与抽样框；

3.个体、抽样单元与抽样框。

2.2 试说明以下术语或概念之间的关系与区别； 1.均方误差、方差与偏倚； 2.方差、标准差与标准误。 2.3 影响抽样误差的因素； 2.4 抽样分布及其意义； 2.5 抽样估计的基本原理； 2.6 置信区间的确定。

第三章简单随机抽样

3.1 设总体N=5，其指标值为{3，5，6，7，9}

1.计算总体方差?和S2；

2.从中抽取n=2的随机样本，计算不放回抽样的方差V(y)； 3.按不放回抽样列出所有可能的样本并计算y，验证E(y)=Y；

4.按不放回抽样所有可能的样本，计算其方差V(y)，并与公式计算的结果进行比较； 5.对所有的可能样本计算样本方差s2,并验证在不放回的情况下：E（s2）= S2。

3.2 在一森林抽样调查中，某林场共有1000公顷林地，随机布设了50块面积为0.06公顷的方形样地，测得这50块样地的平均储蓄量为9m3，标准差为1.63 m3，试以95%的置信度估计该林场的木材储蓄量。

3.3 某居民区共有10000户，现用抽样调查的方法估计该区居民的用水量。采用简单随机抽样抽选了100户，得y=12.5，s2=1252。估计该居民区的总用水量95%的置信区间。若要求估计的相对误差不超过20%，试问应抽多少户做样本？

3.4 某工厂欲制定工作定额，估计所需平均操作时间，从全厂98名从事该项作业的工人中随机抽选8人，其操作时间分别为4.2，5.1，7.9，3.8，5.3，4.6，5.1，4.1（单位：分），试以95%的置信度估计该项作业平均所需时间的置信区间（有限总体修正系数可忽略）。 3.5 从一叠单据中用简单随机抽样方法抽取了250张，发现其中有50张单据出现错误，试以95%的置信度估计这批单据中有错误的比例。若已知这批单据共1000张，你的结论有何变化？若要求估计的绝对误差不超过1%，则至少抽取多少张单据作样本？

第四章分层抽样

4.1 一公司希望估计某一个月内由于事故引起的工时损失。因工人、技术人员及行政管理人员的事故率不同，因而采用分层抽样。已知下列资料：工人技术人员行政管理人员 N1=132 N2=92 N3=27 S12=36 S22=25 S32=9 若样本量n=30，试用你乃曼分配确定各层的样本量。 4.2 上题中若实际调查了18个工人，10个技术人员，2个行政人员，其中损失的工时数如下：工人技术人员行政管理人员 8，24，0，0，16，32， 4，5，0，24，8，12，3，2，1，8 6，0，16，7，4，4，9，5，1，8 8，18，2，0 试估计总的工时损失数并给出它的置信度为95%的置信区间。 4.3调查某个地区的养牛头数，以村作为抽样单元。根据村的海拔高度和人口密度划分成四层，每层取10个村作为样本单元，经过调查获得下列数据层村总数样本村养牛头数 1 2 3 4 5 6 7 8 9 10 1 1411 43 84 98 0 10 44 0 124 13 0 2 4705 50 147 62 87 84 158 170 104 56 160 3 2558 228 262 110 232 139 178 334 0 63 220 4 14997 17 34 25 34 36 0 25 7 15 31 要求： ?)Y? （1）估计该地区养牛总头数Y及其估计量的相对标准误差s(Y（2）讨论分层抽样与不分层抽样比较效率有否提高。

（3）若样本量不变采用Neyman分配可以减少方差多少？ 4.4 用下面的工厂分组资料按工人人数分组工厂数目每工厂产值（万元） 1—49 18260 100 50—99 4315 250 100—249 2233 500 250—999 1057 1760 567 2250 1000人以上若欲抽取3000个工厂作样本来估计产值，试比较下列各种分配的效率：（1）按工厂数多少分配样本；（2）按最优（奈曼）分配。 4.5 怎样分层能提高精度？

4.6 总样本量在各层间分配的方法有哪些？ 4.7 分层的原则及其意义。

第五章比估计与回归估计

标准差 80 200 600 1900 2500 5.1 欲估计某小区居民的食品支出占总收入的比重，该地区共有150户，现用简单随机抽样抽取14户为样本，经调查每户的食品支出yi与总收入xi的数据如下表：样本户总收入xi 食品支出yi 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 要求估计食品支出占收入比重的95%置信度的置信区间。 5.2 某林场欲估计一批出售木材的材积量，从N=250株砍伐的树木中随机抽取了n=12株作为样本，每株分别测量了根部横截面积和材积量（见附表）。为了估计总材积量又测量了这250株树木根部的横截面积之和为75平方尺。要求：

（1）估计这250株树的总材积量及相对标准差；（2）比较采用比估计与简单估计的效率。附表

样本序号根部横截面积（平方尺）材积量（立方尺） 1 0.3 6 2 0.5 9 3 0.4 7 4 0.9 19 5 0.7 15 6 0.2 5 7 0.6 12 8 0.5 9 9 0.8 20 10 0.4 9 11 0.8 18 12 0.6 13 5.3 某乡欲估计今年的小麦总产量，全县共有123个村，按简单随机抽样抽取13个村作为样本，取得资料如下：

样本村去年的小麦产量（百斤）今年的小麦产量（百斤） 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 6 980 1050 7 928 977 8 1200 1440 9 1350 1570 10 1750 2210 11 670 980 12 729 865 13 1530 1710 （1）若已知去年的小麦总产量为128200（百斤），采用比估计法估计今年的小麦总产量和置信度为95%的置信区间。

（2）估计每个村的平均小麦产量及估计的相对标准差。

5.4 一公司欲了解广告对其产品销售量的作用，从销售该公司产品的452家企业中抽选了

20家，分别调查了广告前与广告后的月销售量数据如下表：样本企业广告前广告后样本企业广告前广告后 1 208 239 11 599 626 2 400 428 12 510 538 13 828 888 3 440 472 4 259 276 14 473 510 5 351 363 15 924 998 16 110 171 6 880 942 7 273 294 17 829 889 8 487 514 18 257 265 19 388 419 9 183 195 20 244 257 10 863 897 （1）若广告前的月总销售量为216256，估计广告后的月销售量及其相对标准差。（2）求广告后比广告前销售量增加百分比的置信区间（a=0.05）。

（3）若允许估计总销售量的最大绝对误差为△=3800，置信度为95%，确定应抽取多少企

业作样本。

5.5 某养兔专业户购进100只兔子，平均重量为3.1磅，随机抽取了10只兔子为样本，记录其重量，经过两个月的饲养，现欲了解其平均重量，经过称重，其资料如下：

样本原重（磅）现重（磅） 1 3.2 4.1 2 3.0 4 3 2.9 4.1 4 2.8 3.9 5 2.8 3.7 6 3.1 4.1 7 3.0 4.2 8 3.2 4.1 9 2.9 3.9 10 2.8 3.8 要求：（1）用回归估计法估计每只兔现有的重量，并计算其方差的近似估计量。

（2）若每只兔的平均重量允许最大误差为0.05磅，置信度为95%，应该取多少只兔为样

本？

5.6 某县欲调查某种农作物的产量，由于平原和山区的产量有差别，故拟划分平原和山区两层采用分层抽样。同时当年产量与去年产量之间有相关关系，故还计划采用比估计方法。已知平原共有120个村，去年总产量为24500（百斤），山区共有180个村，去年总产为21200（百斤）。现从平原用简单随机抽样抽取6个村，从山区抽取9个村，两年的产量资料如下：平原山区样本去年产量当年产量 1 2 3 4 5 6 （百斤） 204 143 82 256 275 198 （百斤） 210 160 75 280 300 190

样本 1 2 3 4 5 6 7 8 9 去年产量（百斤） 137 189 119 63 103 107 159 63 87 当年产量（百斤） 150 200 125 60 110 100 180 75 90

试用分别比估计与联合比估计分别估计当年的总产量，给出估计量的标准误，并对上述两种结果进行比较和分析。

5.7 回归估计、比估计与简单估计间的区别； 5.8 辅助变量的选择原则。

第七章不等概率抽样

7.1 对与N=4的假设总体{1，2，3，4}按给顶的概率{0.1，0.2，0.4，0.4}进行有放回抽样，n=2（1）试列出所有可能样本以及每个出现的概率；（2）对每个样本计算对总体和Y的估

n1???yi，验证Y?是Y的无偏估计；?)，验证其结果计Y（3）根据可能样本计算V(YHHHHni?1zi是否按公式计算的结果一致？

7.2 研究人员欲估计一批电子元件板上的缺陷数，由于缺陷数与板上的电子元件数目有关，故采用与元件数目成比例的放回的PPS抽样。设N=10，每块板上电子元件的数目按顺序分别为10，12，22，8，16，24，9，10，8，31，设n=4。现要求（1）说明样本的抽选方法；

（2）若抽中的单元按前面排列的序号是第2，3，5，7这四个元件板，其缺陷数分别为1，3，2，1，试根据这一抽样结果，估计这批元件上共有多少个缺陷数。（3）给出上述估计量的方差估计。

7.3 假设总体大小N=7，单元指标值分别为10，20，30，40，50，60和70，采取n=2的不放回?PS抽样。试列出所有可能的样本，计算每个单元和每对单元被抽入样本的包含改良

?i和?ij并验证??i?2，??ij??i。

i?1NNj?i7.4 有一个估计某城镇现有第三产业单位数的例子。假设有去年年底的普查数和现有的实际单位数，分街道统计如下：

街道去年普查数现有单位数街道去年普查数现有单位数

1 9 9 11 19 19 2 9 13 12 21 25 3 12 12 13 23 27 4 12 12 14 24 21 5 12 14 15 24 35 6 14 17 16 25 22 7 14 15 17 26 25 8 17 20 18 27 27 9 18 19 19 30 47 10 18 18 20 40 37 假设n=1，采用以下几种估计量（1）等概率抽选，简单（无偏）估计；

（2）等概率抽选，以去年普查数为辅助变量的比估计；

（3）按与去年普查数成比例的概率抽样，汉森—赫维茨估计。比较这三种估计的方差或均方误差，（计算比估计的均方误差时应计算真值而不用近似公式）并加以讨论。

第八章整群抽样

8.1 某一社会研究机构，研究南方某一城镇的社会民俗等情况。设该镇共有415个居民小组，现从中按简单随机抽样抽取25个居民小组作样本，取得了以下一些数据。

其中三代其中三代人样本数户数总收入样本数户数总收入人户数户数 1 8 4 96000 14 10 6 49000 2 12 7 121000 15 9 4 53000 3 4 1 42000 16 3 1 50000 4 5 3 65000 17 6 4 32000 5 6 3 52000 18 5 2 22000 6 6 4 40000 19 5 3 45000 7 7 4 75000 20 4 1 37000 8 5 2 65000 21 6 3 51000 9 8 3 45000 22 8 3 30000 10 3 2 50000 23 7 4 39000 11 2 1 85000 24 3 0 47000 12 6 3 43000 25 8 3 4100 13 5 2 54000 合计 151 72 1329000 要求：（1）估计该地区户平均收入及其标准差。

（2）估计三代人的户占总户数的比例，并计算其标准差；

8.2 某工业系统准备一项改革措施，对全系统的人进行一项民意测验，该系统共有87个单

位，现采用整群抽样，用简单随机抽取15个单位作为样本，对抽中的单位作全面征求意见，其结果如下：

单位总人数赞成人数 1 2 3 4 51 62 49 73 42 53 40 45 5 6 7 8 9 10 11 12 13 14 15 101 48 65 49 73 61 58 52 65 49 55 63 31 38 30 54 45 51 29 46 37 42 要求：

（1）估计该系统同意这一改革人数的比例，并计算估计标准误；

（2）在调查的基础上对方案作了修改，拟再一次征求意见，要求估计比例的绝对

误差不超过4%，置信度为95%，则应抽多少个单位作样本。 8.3 假设整群抽样的样本群数为n，每个群有M个单元，群间方差为Sb，群内方差为Sw

试对整群抽样与相同样本量的简单随机抽样的效率的比较进行讨论（fpc可忽略不计）。 8.4 整群抽样与分层抽样的区别； 8.5 整群抽样的设计效应。

第九章多阶抽样

9.1 苗圃职工用二阶抽样方法估计树苗的平均高度，该苗圃共有N=50块地，先从中抽取10块地，再从每块抽中的地块中抽10%的树苗，对抽中的苗木测量其高度取得资料如下：

地块（i）秧苗数（Mi）抽样数（mi）苗木高度yij 1 2 3 4 5 6 7 8 9 10 已知共有M0=2600株苗木 52 56 60 46 49 51 50 61 60 45 5 6 6 5 5 5 5 6 6 6 12,11,12,10,13 10,9,7,9,8,10 6,5,7,5,6,4 7,8,7,7,6 10,11,13,12,12 14,15,13,12,13 6,7,6,8,7, 9,10,8,9,9,10 7,10,8,9,9,10 12,11,12,13,12,,12 ?(1)Nn（1）若两阶抽样都是简单随机的，调查结果用加权平均数Y?Miyi来估计?M0ni?1总体均值，求估计值Y?(1)

，并计算v(Y?(1))；

?(2)1n?（2）抽样方法同（1），但估计量不加权，即用Y求估计值并计算v(Y(2)) ??yi，

ni?1（3）抽样方法不变，使用比估计，即Y（4）讨论上述三种方法的适用条件

?(3)??My?Miii，求估计值及其标准误差v(Y?(3))

9.2 省卫生部门对32个城市的饮食业采用二阶抽样方法检查卫生合格情况，第一阶抽样从32个城市中简单随机抽取4个城市，第二阶抽样在每个抽中的城市用同样方法抽取一半饮食店进行检查，检查结果如下：

样本城市饮食店总数样本店数检查卫生不合格数 1 2 3 4 25 10 18 16 13 5 9 8 4 1 4 2 要求估计这32个城市不合卫生要求的饮食店所占的比例及95%的置信区间。

9.3 估计一个地区的每一住户平均消费支出，拟采用二阶抽样设计，第一阶抽村，第二阶抽户，都采用简单随机抽样。为了设计这一调查先作了一试调查获得以下信息：(a)Y?50，

2(b)村与村之间的方差S12?85.5，(c)村内户与户之间的方差S2?36.5，(d)调查每个村的费

用c1?9元，(e)调查每一住户的费用c2?1元，(f)调查的组成管理费用为c0?1000元。若总的调查费用CT=10000元。请计算最忧的样本村数和每村的样本住户数。 9.4 多阶抽样与单阶抽样的关系；

9.5 二阶抽样与整群抽样和分层抽样的关系。

第十章系统抽样

10.1 以美国某镇的360户为总体，编号从1—360，排列的顺序按户主的姓的字母排列，下列的号码是家长为非白人的住户号码：28，31一33，36—41，44，45，47，55，56，58，68，69，82，83，85，86，89—94，98，99，101，107一110，114，154，156，178，223，224，296，298—300，302—304，306—323，325—331，333，335—339，341，342）由于姓与肤色有关系，所以非白种人的住户显出某些“聚集”的现象）。为了估计家长为飞白人住户在全部住户中所占的比例，每8户抽1户，取得一个系统样本。试将这一系统样本的精度与同样样本量的简单随机抽样的精度加以比较。

10.2 现欲对一条街上的居民调查住户的平均居住年限，用每隔20户抽取1户的系统抽样方法，共调查了115户，得

?yi?1115i.15。求平均居住年限并作出95%?407；?yi2?2011i?1115的置信区间。你在作出估计中对总体的排序作了什么样的假设？

10.3 下面是美国1900年以来每隔5年的离婚率资料：

年份离婚率%

1900 0.7

1905 0.8

1910 0.9

1915 1.0

1920 1.6

1925 1.5

1930 1.6

1935 1.7