对规下工业企业采用的抽样方法

更新时间:2023-09-14 15:32:01 阅读量: 初中教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

对企业采用的抽样方法——目录企业抽样方法

对有名录的企业采用一阶段目录抽样。从省级企业名录库中按规模―工业总产值或销售收入进行分层后直接抽取企业。

1.1 按销售收入规模分层,应用累计平方根法。其方法是:第一步将各组的频数开方;第二步将开方后的平方根进行累计;第三步选择适当的层数,将平方根累计总数除以层数。根据得到的商数选择最接近该数的点作为临界点。在这基础上可以将样本容量在各层中等容量分配。理论上证明,这样的结果接近于内曼分配。

如某省企业名录库中共有97068个企业,频数分布及各层临界点如下表。(1)列为按销售收入分组;(2)列为频数分布;(3)列为频数平方根;(4)列为平方根累计;(5)列为将平方根累计总数除以层数(本例分为6层)后的商数;;(6)列为根据得到的商数选择最接近该数的点作为临界点,即分层结果。

需要说明的是,这种方法比较简单。分层结果有时也会根据实际情况,如每层的企业单位数量、抽样比等情况进行调整。

表1 企业分层情况 销售收入 (万元)(1) <50 50~100 100~150 150~200 200~250 250~300 300~350 350~400 400~450 企业数(f) 平方根 平方根累 (2) (3) 计 (4) 22403 13627 13059 9005 7849 6073 5602 4569 6715 149.7 116.7 114.3 94.9 88.6 77.9 74.8 67.6 81.9 149.7 266.4 380.7 475.6 564.2 642.1 717.0 784.5 866.5 (5) 159.5 319.0 478.4 637.9 797.4 (6) <50 50~100 100~200 200~300 300~400 400+ 450~500 合计

8166 97068 90.4 956.9 956.9 1.2 确定样本量。首先根据公式计算样本量。这也是以往调查中常采用的方法。最大相对误差一般控制在10%。

其次,考虑能够承担的工作量。主要是经费和人员方面的承受能力。

三是要考虑研究的问题及消亡和无回答情况。比如在某省进行工业抽样调查设计,确定样本量时(如分6层),如果按公式计算可能只需100个样本,即便考虑到消亡情况,仍是一个很小的样本量。如果只推算一个指标的总量,样本量也许能够满足精度要求了。但工业抽样调查涉及到多指标问题,同时也考虑利用样本数据,研究分行业估算等。为此在某省进行工业抽样调查设计确定了1000个目录企业,后又考虑有消亡和无回答企业,增加了120个企业样本。

1.3 分配样本。在规模层内分配样本量。大企业给与高的抽样比。另外层与层之间的抽样比相差不要太大,避免跳层发生后,由于层与层之间权数相差较大,加大方差。 表2 企业总体单位数及样本分布情况 按年产品销售收入分层(万元) 400+ 250-400 150-250 50-150 <50 Total

1.4 抽取样本。利用永久随机数技术抽取样本。

企业单位数 14418 16034 16628 26365 22450 95895 抽取的样本 企业数 300 306 202 196 120 1124 抽样比 0.020807 0.019084 0.012148 0.007434 0.005345 0.011721 按抽样比抽取的样本企业数 305 300 210 147 131 1093 1.4.1 永久随机数(Permanent Random Numbers)概念。随机数就是按随机方法而生成的数码。永久随机数则是指长久使用、不改变的随机数。比如一个企业一旦被赋予了一个随机数,则在以后的调查中都使用这个随机数,它类似企业法人代码,具有唯一和终身性。利用永久随机数不仅可以方便地抽取分层抽样中每层的样本,而且还可在连续性调查中增加所需样本或进行样本轮换时,方便管理。

1.4.2 产生方法。永久随机数可通过计算机程序产生,既可在Foxpro中,用“repl 字段名 with rand()”语句命令实现,也可在Microsoft Excel中,选择插入菜单,找到“ 函数”中的“常用函数”,查找到“Rand”即为产生随机数的程序。抽样框中有多少个单位,就产生多少个随机数。随机数的位数可根据需要确定,本文中以95895个企业为例,因此确定用6位。

1.4.3 检验其分布是否合理。随机数产生后,要检验其分布是否合理。方法是用随机数6位中的前n(n为1,2,3??6)位来检验,本文采用前两位来检验,即在0.01至0.02之间;0.02至0.03之间;0.03至0.04之间??;0.99至1之间,看是否有大致相等的随机数个数,如果有大致相等的随机数个数,说明是等概率的,是合理的。如果每个区间的随机数个数相差较多,说明是不合理的,需要重新生成随机数,再检验其分布的合理性,直至达到满意为止。比如,某地区目录企业框有95895个企业,首先按以上方法生成95895个永久随机数,然后,检验其分布的合理性。检验结果如下,见表3。

每个区间都应有1000个随机数,从表中可看出,每个区间的随机数在911个至1023个之间,说明其分布基本是均匀的。

表3 随机数分布情况

随机 比例 随机 比例 随机 比例 随机 比例 区 间 区 间 区 间 区 间 数量 (%) 数量 (%) 数量 (%) 数量 (%) 0.00~0.01 986 1.028 0.25~0.26 1000 1.043 0.50~0.51 930 0.970 0.75~0.76 911 0.950 0.01~0.02 939 0.979 0.26~0.27 968 1.009 0.51~0.52 975 1.017 0.76~0.77 1022 1.066 0.02~0.03 918 0.957 0.27~0.28 990 1.032 0.52~0.53 944 0.984 0.77~0.78 934 0.974 0.03~0.04 931 0.971 0.28~0.29 939 0.979 0.53~0.54 969 1.010 0.78~0.79 929 0.969 0.04~0.05 940 0.980 0.29~0.30 960 1.001 0.54~0.55 933 0.973 0.79~0.80 945 0.985 0.05~0.06 952 0.993 0.30~0.31 918 0.957 0.55~0.56 1002 1.045 0.80~0.81 945 0.985 0.06~0.07 966 1.007 0.31~0.32 977 1.019 0.56~0.57 948 0.989 0.81~0.82 971 1.013 0.07~0.08 1004 1.047 0.32~0.33 1012 1.055 0.57~0.58 1023 1.067 0.82~0.83 925 0.965 0.08~0.09 940 0.980 0.33~0.34 913 0.952 0.58~0.59 944 0.984 0.83~0.84 993 1.036 0.09~0.10 1013 1.056 0.34~0.35 977 1.019 0.59~0.60 955 0.996 0.84~0.85 973 1.015 0.10~0.11 936 0.976 0.35~0.36 969 1.010 0.60~0.61 950 0.991 0.85~0.86 917 0.956 0.11~0.12 924 0.964 0.36~0.37 963 1.004 0.61~0.62 986 1.028 0.86~0.87 940 0.980 0.12~0.13 968 1.009 0.37~0.38 974 1.016 0.62~0.63 920 0.959 0.87~0.88 958 0.999 0.13~0.14 951 0.992 0.38~0.39 908 0.947 0.63~0.64 952 0.993 0.88~0.89 937 0.977 0.14~0.15 927 0.967 0.39~0.40 966 1.007 0.64~0.65 1000 1.043 0.89~0.90 949 0.990 0.15~0.16 960 1.001 0.40~0.41 930 0.970 0.65~0.66 929 0.969 0.90~0.91 968 1.009 0.16~0.17 1011 1.054 0.41~0.42 944 0.984 0.66~0.67 953 0.994 0.91~0.92 941 0.981 0.17~0.18 946 0.986 0.42~0.43 943 0.983 0.67~0.68 979 1.021 0.92~0.93 958 0.999 0.18~0.19 969 1.010 0.43~0.44 972 1.014 0.68~0.69 936 0.976 0.93~0.94 912 0.951 0.19~0.20 932 0.972 0.44~0.45 948 0.989 0.69~0.70 1005 1.048 0.94~0.95 978 1.020 0.20~0.21 929 0.969 0.45~0.46 956 0.997 0.70~0.71 959 1.000 0.95~0.96 989 1.031 0.21~0.22 1006 1.049 0.46~0.47 1010 1.053 0.71~0.72 943 0.983 0.96~0.97 1013 1.056 0.22~0.23 963 1.004 0.47~0.48 924 0.964 0.72~0.73 968 1.009 0.97~0.98 924 0.964 0.23~0.24 983 1.025 0.48~0.49 1006 1.049 0.73~0.74 984 1.026 0.98~0.99 899 0.937 0.24~0.25 998 1.041 0.49~0.50 983 1.025 0.74~0.75 962 1.003 0.99~1.00 973 1.015

1.4.4 抽取样本的方法

1.4.4.1 按固定样本量抽取样本的方法。在每层中按样本量选取最小的永久随机数对应的企业为样本。如表2中400万元以上的层,需从14418个企业中等概率抽取300个样本,做法是,将这14418个企业按永久随机数从小到大排队,选取永久随机数最小的300个,即为这一层的样本。当然,也要进一步考虑到样本按行业、按地域、按注册类型的分布情况。其他层样本抽取都按此方法进行。

利用永久随机数抽取样本的一个简单例子。

表4 利用永久随机数抽取5个样本 企业 PRN A .92 B .51 C .22 D .67 E .32 F .11 G .84 H .46 I .52 合计 95895 100.00 排列 样本

9 5 ? 2 ? 7 3 ? 1 ? 8 4 ? 6 表4中共有A、B、C、?I 9个企业,第2行为这9个企业的永久随机数,第3行为按永久随机数大小的排列顺序,第4行为抽取的永久随机数最小的5个企业样本。

1.4.4.2 按抽样比抽取样本的方法。在每层中所有比抽样比小的永久随机数对应的企业为抽中样本,如表2中400万元以上的层,抽样比是0.020807,在这一层按随机数从小到大排队,凡是永久随机数小于0.020807的企业为抽中样本。共得到305个样本。此种抽取方法的缺点就是样本量不固定,是随抽样比变化的随机变量,而且与规定的样本量会有一定差异,可能比要求的样本量多,也可能比要求的样本量少。从上表中的最后一列可看出,5层中有3层比要求的样本量多,分别是400万元以上的层、150-250万元的层和50万元以下的层。5层中有2层比要求的样本量少,分别是250-400万元的层和50-150万元的层。按抽样比方法抽取的总样本量比要求的少31。

1.4.5 利用永久随机数维护样本。第一次调查结束后,一些样本企业会发生变化,如消亡、改行、规模大变小或小变大,同样也会有新生企业等。因此要对样本进行维护。

1.4.5.1. 应用固定样本量的方法。如果在第二次调查时,某层需要补充或增加样本,就在第一次调查样本的基础上,选取能满足样本量要求的最小的永久随机数对应的企业为补充样本。还以400万元以上的层为例,在第二次调查时想在第一次调查300个样本的基础上增加50个,那么300个样本(假定样本没有发生变化)依然是第二次调查的样本,另外此层按永久随机数从小到大排队,假如第一次抽取300个样本的永久随机数是小于0.025,则第二次要在永久随机数0.025(大于0.025)的基础上选取最小的50个作为补充样本。

如果在第二次调查时,

对于新增企业,首先根据其在每层中的数量,确定需增加的样本量,然后在每层中选取永久随机数最小的企业作为新增样本。

本文来源:https://www.bwwdw.com/article/2rfh.html

Top