抽样调查-5不等概率抽样

更新时间:2023-05-23 09:39:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

抽样调查教案

抽样调查(Sampling Survery)

李启才 liqcai@

抽样调查教案

抽 样 调 查

Chap5 不等概率抽样§5.1 不等概率抽样 §5.2 放回不等概率抽样 §5.3 多阶段有放回不等概率抽样 §5.4 不放回不等概率抽样

抽样调查教案

§5.1 不等概率抽样抽 样 调 查由于抽样单元在总体中占有的地位不一样, 由于抽样单元在总体中占有的地位不一样,有时需 赋予每个单元不同的被抽中概率, 赋予每个单元不同的被抽中概率,以便更合理的推算估 计. 例如反映北京经济发展的情况, 例如反映北京经济发展的情况,像首钢等这样的大型企 业影响比较大, 业影响比较大,而一些名不见经传的小企业是否抽中往 往无足轻重. 往无足轻重.因而在抽样中如果把他们处在同等地位显 然有缺陷. 然有缺陷. 不等概率抽样主要分为 放回不等概率抽样和( 不放回不等概率抽样. (一)放回不等概率抽样和(二)不放回不等概率抽样. 它们在抽样方式和估计量构造方面都与前面有很大不同. 它们在抽样方式和估计量构造方面都与前面有很大不同. 在有放回等概率抽样中, 在有放回等概率抽样中,最常用的是按总体单元的规模 大小来确定抽选的概率. 大小来确定抽选的概率.

抽样调查教案

1 PPS抽样(probability proportional to size) 抽样( 抽样 )

抽 样 调 查

设Z1,Z2,…Zn是一组概率分布(分布列),按这组概率 对总体中的N个单元进行有放回抽样,每次抽中第 i个单 元的概率Zi,独立进行n次,则这种抽样叫多项抽样. 特别地,设总体种第i个单元的规模度量为Mi,可取N Mi Zi = , M0 = ∑ Mi M0 i =1

这时称为PPS抽样. 其中某单元可能被不止一次抽中,此时只 调查一次,但计算时出现几次按几次计算.

抽样调查教案

2 实施办法

抽 样 调

1).代码法 代码法(累积总和法)(汉森&赫维茨 , 代码法 Hansen & Hurwitz 1943)

在PPS抽样中,赋予每个单元与规模Mi相等的代码,将代码 累加得到M0,每次抽样都产生一个[1,M0]之间的随机数,设为 m,则代码m所对应的单元被抽中.如果Mi不是整数,则乘以某 个倍数.单元 单元规模 累加和 代码范围

1 2 3 . . .

M1 M2 M3 . . .

M1 M1+M2 M1+M2+M3 . . .

1—M1 M1+1—M1+M2 M1+M2+1—M1+M2+M3 . . .

抽样调查教案

例5.1 设某个总体有N=10个单元,相应单元的大小Mi及代码, 我们要在其中产生一个 n=3的样本.

抽 样 调 查

i1 2 3 4 5* 6* 7* 8 9 10

Mi0.6 14.5 1.5 13.7 7.8 15 10 3.6 6 1.1

Mi*106 145 15 137 78 150 100 36 60 11

累加Mi*106 151 166 303 381 531 631 667 727 738

代码1~6 7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738

M0=73.8

738

----

----

先在[1,738]中产生第一个随机数如是354,再在[1,738]中 产生第二个随机数如是553,最后[1,738]中产生第三个随机 数如是493,则它们对应的第5,6,7号单元被抽中.易验证 每个单元被抽中的概率与其规模成正比.

抽样调查教案

2)拉

希里方法 拉希里方法(Lahiri,印度) 拉希里方法

抽 样 调 查

第一步:先在1~N中随机等概率抽取一个数字,不妨设为 i,则i成为侯选的被抽中单元,其是否抽中还依赖于第二步; 第二步:令M * = max {M i } ,在1≤i ≤ N

1 ~ M *之间等概率随机取 m,

如果m小于刚才抽中第i个单元的规模 Mi,即 m≤Mi,则第 i个 单元被抽中,否则重复第一步和第二步,直到两步都符合才算 抽中,这样依次下去,直到抽满n个单元为止. 续上例: M * = 150 N = 10 在[1,10]和[1,150]中分别产生 (i,m)演示如下,

抽样调查教案

(3,121), M 3 = 15 < m = 121

舍弃,重抽; 舍弃,重抽; 第7号单元入样; 舍弃,重抽;

抽 样 调 查

(8,50), M 8 = 36 < m = 50 (7,77), M 7 = 100 ≥ m = 77 (5,127), M 5 = 78 < m = 1277 5 127 (4,77), (9,60),

M 4 = 137 ≥ m = 77 第4号单元入样;

M 9 = 60 ≥ m = 60

第9号单元入样.

因此第4,7,9号单元被抽中.

抽样调查教案

抽 样 调 查

注:总体单元大小规模的度量往往不止一个,如度量一个 企业的大小,可以是资金多少,也可以是产值和销售额的 大小,还可以使人员的多少等.如估计全乡村平均年收入, 可以以每村家庭户数作为规模度量. 实际调查中,应据与调查的目标量Yi的相关程度以及获取 数据简易程度综合考虑.i1 2 3 4 5 6 7 8 9 10和 1500

Mi120 45 210 86 284 191 39 320 167 38----

累加Mi 120 165 375 461 745 936 975 1295 1462 1500

代码 1~120 121~165 166~375 376~461 462~745 746~936 937~975 976~1295 1296~1462 1463~1500----

抽样调查教案

3 不放回不等概率抽样

抽 样 调 查

对于放回抽样,总体参数的估计及其方常估计比较 简单,但样本单元中可能有单元被抽中多次,直观上, 同一单元没有必要调查多次. 因此可以考虑不放回不等概率抽样,即每次在总体 中对每个单元按入样概率进行抽样,抽取后不再放回, 对总体中剩下的单元进行下一次抽样. 不放回概率抽样比放回概率抽样效率高,但难以实施, 参数估计及精度计算比较困难. 不放回不等概率抽样后述. 包含概率: 总体中第i个单元被包含到样本的概率用πi表示( πi =nZi)

抽样调查教案

§5.2 放回不等概率抽样抽5.2.1 n=1 演示

样 [例]一个城市有4个超市,营业面积从100平方米到1000平方米 例 调 查不等(见表5-2).我们的目标是通过抽取一家超市来估计这 个4个超市上个月的总销售量.

抽样调查教案

抽 样 调 查 = ∑ Z Yi = Y 事实上易知E Y i Zi i =1

( )

N

π i = Z i = P (超市i被选中)

= ∑ P ( i ) Y = 1 *176 + 2 *160 + 3 *128 + 10 *392 = 300 E Y i 16 16 16 16 i

( )

= ω y = yi Y i i Zi

抽样调查教案

抽 样 调 查 V Y = E Y Y

V Y = 14248

( )

( )

(

)

2

1 1 1 1 V Y = *65536 + * 48400 + * 41616 + * 462400 = 154488 > 14248 4 4 4 4

( )

Y = ∑ Zi i Y i =1 Zi N

2

抽样调查教案

5.2.2 汉森 赫维茨(Hansen-Hurwitz)估计量 汉森—赫维茨 赫维茨( )

抽 样 调 查

总体总量估计量:

YHH

1 n yi M0 = ∑ = n 1 zi

n

yi ∑m 1 i

n

(5.4,5.5)

其直观意义是用入样的单元目标量比其在总体中的权重去估 计总体总量然后加权平均.可以证明它是总体总量的无偏估计. Yi 1 Y V YHH = ∑ Z i n i =1 Z i N

( )

2

(5.6)2

yi 1 1 v YHH = ∑ z YHH n n 1 i =1 i

( )

n

(5.7)2

yi YHH M = ∑ m M n ( n 1) i =1 i 0 2 0 n

(5.8)

抽样调查教案

证明:

抽 样 调 查

Y1 Y2 YN ,, 考虑总体 , 独立重复抽取, Z1 Z 2 ZN 第i个单元被抽取的概率为即为Zi , YHH 1 n yi = ∑ n 1 zi

就是n次观察值的样本平均值.N N Yi = ∑ Z i = ∑ Yi = Y I =1 Z i 1

yi 根据数理统计,E z i

yi V z i

Yi = ∑ Y Zi I =1 Z i N 2

= E yi = Y V YHH E YHH z i

( )

( )

1 y i = 1 Yi Y Z = V i z n ∑ Zi n i I =1 N

2

抽样调查教案

yi 1 总体方差的无偏估计, ∑ z YHH n 1 i =1 i n

2

抽 样 调 查

yi 1 1 v YHH = ∑ z YHH n n 1 i =1 i n

( )

2

作业:请写出总体均值的估计量和方差以及方差的估计量. 作业 例5.2 某部门要了解所属8500家生产企业当月完成的利润,该 部门手头已有一份上年各企业完成产量的报告,将其汇总得到 所属企业上年完成的产量为3676万吨.考虑到时间紧张,准备 采用抽样调查来推算当月完成的利润.根据经验,企业的产量 和利润相关性比较强,且企业的特点是各企业之间的规模和管 理水平差异比较大,大企业一般管理水平比较高,因此采用与 上年产量成比例的PPS抽样,从所属企业抽取一个样本量为30 的样本,调查结果如表5-5.要根据以上调查结果估计该部门所 属企业当月完成的利润,并给出估计的相对误差.如果要求在 相同条件下相对误差达到20%,所需要的样本量是多少?

抽样调查教案

例5.2 DATA抽 样 调 查

抽样调查教案

抽 样 调 查 YHH M0 = n yi ∑m 1 in

抽样调查教案

抽 样 调 查

v YHH

( )

y i YHH M = ∑ m M ≈ 30317005145.8 n(n 1) i =1 i 0 2 0 n

2

( ) s (Y ) r =t ≈ 45% s YHH ≈ 174118HH

YHH

r2 n1 = 2 n r1

0.45 = × 30 = 152 0.2

2

(见§2.5pptpage72结论)

抽样调查教案

5.2.3与群规模成比例的不等概率抽样 与群规模成比例的不等概率抽样

抽 样 调 查

1 n yi M 0 Y= ∑ = n 1 Zi n1 n yi y= ∑ n i =1 M i

yi ∑ M = M0y 1 i

n

(5.9)

1 n = ∑ yi n i =12

Yi M0 N 1 V Y = ∑ Zi Y = ∑ M i Yi Y Z n i =1 n i =1 i 2 N 1 = 1 ∑M Y Y V (y ) = 2 V Y i i nM 0 i =1 M0N

()

(

) (5.10)2

()

(

)

抽样调查教案

抽 样 调 查

yi M 02 n 2 = 1 1 ∑ Y = vY z n(n 1) ∑ ( y i y ) n n 1 i =1 i i =1 nn 2 1 1 = v( y ) = 2 v Y ∑ ( yi y ) n ( n 1) i =1 M0

()

2

()

(5.12)

例5.3 某企业欲估计上季度每位职工的平均病假天数. 该企业共有8个分厂,现用不等概率抽样拟抽取3个分 厂为样本,并以95%的置信度计算置信区间.

本文来源:https://www.bwwdw.com/article/ted4.html

Top