6 管理统计 南京工业大学 张琳 上课讲义

更新时间:2023-12-27 08:30:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Chapter 6 Sampling and Inference

Sampling and Inference (抽样推断)

Point Estimation and Interval Estimation(点估计与区间估计) Sampling Methods(抽样调查方法)

Determining the Sample size (确定样本容量)

6.1. Sampling and Inference 6.1.1 Sampling and Inference

The purpose of statistical inference is to develop estimates and test hypotheses about the characteristics of a population using information contained in a sample.统计推断的目的是利用样本信息建立对总体性质的估计和检验对总体性质的假设。

抽样推断概念:是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据此推断总

体相应数量特征的一种统计分析方法.

重复抽样 (sampling with replacement, 放回抽样) 不重复抽样(sampling without replacement, 无放回抽样) 抽样推断特点:总体的各单位都有一个指定的概率被抽取

调查单位的选取必须按照随机原则进行

从数量上推断总体,并可控制抽样误差的大小 采用概率估算的方法

抽样推断作用:可以解决全面调查无法或难以处理的问题

可以检查、修正和补充全面调查的结果 可以应用于生产过程中的质量控制 可以应用于假设检验

6.1.2 Terminology ?population and sample 全及总体(N)、样本总体(n) ?population mean and sample mean 总体平均数(X)、样本平均数(x) ?population proportion and sample proportion 总体成数(P)、样本成数(p) ?population variance and sample variance 总体方差(?)、样本方差(S2)

2A tire manufacturer developed a new tire designed to provide an increase in mileage over the firm’s current line of tires. To estimate the mean number of miles provided by the new tires, the manufacturer selected a sample of 120 new tires for testing. The test results provided a sample mean of 36,500 miles. Hence, an estimate of the mean tire mileage for the population of new tires was 36,500 miles.某轮胎制造商开发了一种新型轮胎,它的设计里程数超过了公司目前的轮胎产品.为了估计新轮胎的平均里程数,制造商选取了一个包括120条新轮胎的样本进行检测。检测结果显示样本均值为36500英里。于是,新轮胎总体平均里程数的估计值为36500英里。

Members of a political party were considering supporting a particular candidate for election to the U.S. Senate, and party leaders wanted an estimate of the proportion of registered voters favoring the candidate. The time and cost associated with contacting every individual in the population of registered voters were prohibitive. Hence, a sample of 400 registered voters was selected and 160 of the 400 voters indicated a preference for the candidate. An estimate of the proportion of the population of registered voters favoring the candidate was 160/400=0.40. 400名登记选民组成的样本,其中有160人支持候选人,因此选民总体中支持比例的估计值=0.4

The examples illustrate some of the reasons for using sample. However, it is important to realize that sample results provide only estimates of the values of the population characteristics. That is, we do not expect the sample mean of 36,500 miles to exactly equal the mean mileage for all tires in the population, nor do we expect exactly 40% of the population of registered voters to favor the candidate. The reason is simply that the sample contains only a portion of the population. 这两个例子说明了人们使用样本的一些原因。但是应该注意,样本结果提供的只是总体特征值的估计值。也就是说,我们不能期望英里的样本均值恰好等于总体所有轮胎的平均里程,我们也不能期望确实有的登记选民支持这位候选人。我们之所以这样说是因为样本只包含了一部分总体。

6.2 Point Estimation and Interval EstimationPoint Estimation

Sampling error Interval Estimation

6.2.1 Point Estimation

To estimate the value of a population parameter, we compute a corresponding characteristic of the sample, referred to as a sample statistic. For example, to estimate the population mean and the population standard deviation ,we simply use the data to calculate sample statistics: the sample mean and the sample standard deviation.为了估计总体参数的值,需要计算对应的样本特征,即样本统计量。如为了估计总体均值和总体标准差,使用数据计算样本统计量:样本均值和样本标准差。

Point estimation: We use the data from the sample to compute a value of a sample statistic that serves as an estimate of a population parameter.点估计:使用样本数据计算出来的样本统计量的值作为对总体参数的估计。

None of the point estimate are exactly equal to the corresponding population parameters. This variation is to be expected because only a sample and not a census of the entire population is being used to develop the estimate. 没有一个点估计值准确地等于对应总体参数。因为在进行估计时,用样本数据代替了整个总体的统计数据,所以能够预期到这个偏差。 6.2.2 Sampling error

Sampling error: The absolute value of the difference between an unbiased point estimate and the corresponding population parameter is called the sampling error. 总体参数与其对应的无偏点估计之差的绝对值被称为抽样误差。 抽样误差定义:抽样指标与总体指标的差异,X-x、P-p

?抽样误差越小,说明样本的代表性越高。?抽样误差的大小,取决于抽样单位的多少、被研究标志的变异程度大小、抽样方法及组织形式。

抽样平均误差(sampling error mean)定义:许多抽样误差的平均数。

同一总体可以抽出不同的样本,即可计算出相应抽样指标与抽样误差,因此能够计算出抽样平均误差。

抽样平均数的平均误差?x??数理统计证明: (1) 重复抽样下:?x??(x?X)i?1M2M;抽样成数的平均误差?p??(p?P)i?1M2M

?2n不重复抽样下:?x??2n(1?n) N 平均数抽样平均误差与总体均方差成正比,与样本单位数的平方根成反比 ?(2)重复抽样下:?p?p(1?p) 不重复抽样下:?p?np(1?p)n(1?) nN 成数抽样平均误差与总体均方差成正比,与样本单位数的平方根成反比

(3)通常在n/N很小时,用重复抽样平均误差公式代替不重复抽样平均误差公式。 实际计算时,全及总体方差很难获得,一般用样本总体方差代替。

极限抽样误差(margin of error)定义:用一定的概率保证抽样误差不超过某一给定的范围△,

△即极限抽样误差

数理统计证明: △=t? P=F(t),当t=1时,概率P=0.6827

P=F(t),当t=2时,概率P=0.9545

P=F(t),当t=3时,概率P=0.9973

对一定的?,当t数值越大,用抽样指标来代表全及指标所做的推断,可信的程度也越高(估计的精度在下降)。

6.2.3 Interval Estimation抽样估计: 1.点估计: X=x,P=p 2.区间估计:x-△x≤X≤x+△x, p-△p≤P≤ p+ △p

6.3 Sampling Methods

Simple random sampling (简单随机抽样) Systematic sampling(系统抽样) Stratified random sampling(分层抽样) Cluster sampling(整群抽样)

Judgment sampling(判断抽样)

6.3.1 Simple random sampling

Simple random sampling: A simple random sample of size n from a population of size N is a sample selected such that each possible sample of size n has the same probability of being select. 如果总体N中每一个容量为n的可能样本都有相同的概率被选取,这样选择出来的样本就 称为简单随机抽样。

按随机数字表示选定样本总体,计算x,计算ux、up、△x、△p,点估计或区间估计

例1,对砖的质量进行抽样调查,随机抽出220块砖,其中有废砖4块,计算不合格砖占全部砖的比重(概率保证程度95.45%).

p=4/220=1.82%

?p?p(1?p)=n44(1?)220220=0.09%,

220Confidence level(置信度)为95.45%, t=2,

confidence interval(置信区间)为: p-△p≤P≤p+△pp?t?p?P?p?t?p

1.82%-2×0.09%≤P≤1.82%+2×0.09%, 0.02%≤P≤3.62

例2:在某工地抽查144名工人,测得每人平均挖土4.95立方米,方差为2.25,试以95.45%的概率保证推断全部工人的平均挖土量。

x=4.95, ?x??2n=

2.25=0.125, 144Confidence level(置信度)为95.45%, t=2,

confidence interval(置信区间)为: x-△x≤X≤x+△x, x?t?x?X?x?t?x,

4.95-2×0.125≤X≤4.95+2×0.125, 4.70≤X≤5.20

简单随机抽样存在的问题:当总体单位很多时,对总体的编号很困难

当总体单位分散时,抽样调查比较困难 没有利用总体的一些已知信息,有些可惜

6.3.2 Systematic sampling

将总体单位按某种标志的顺序排列,先随机地抽取一个单元作为起点,然后每隔一定的间隔抽取一个样本。

排序,间隔d=N/n,1— d 中随机抽取i ,依次抽取 i+d ,i+2d,…

系统抽样存在的问题:

d=N/n 可能不是整数,取接近N/n的整数,这样可能造成样本容量不同 抽样误差计算困难。简单随机抽样的抽样平均误差在方差一定的条件下,主要取决于样

本容量n,随n增大而减小,而系统抽样,其估计量的抽样平均误差主要取决于总体单元的排列方式,与n无明显的关系,不能直接得出随n增大便减小。

系统抽样实际中处理方法:

按无关标志排序的系统抽样与不重复随机抽样似乎是等价的—按纯随机抽样处理 如:排列结果与总体调查的标志值呈周期性变化,若d=周期l(或其倍数),系统

抽样的效率最差;若d=l-1,系统抽样的效率最好,样本平均数就等于总体平均数,抽样误差为零。

按有关标志排序—可以看作分层抽样。

系统抽样优点:抽样方法简单,很适合在调查现场应用

样本在总体分布的更均匀,具有代表性,特别时采用有关标志排序时,结果往往比其它形式有更好的精度

系统抽样缺点:按无关标志排序时,如总体排序中存在事先无法预见的周期性,有可能获得

一个精度较差的估计

仅从一个系统抽样无法得出估计量抽样平均误差的精确估计。

6.3.3 Stratified random sampling

分层抽样(stratified random sampling):将总体分为若干层(类型),从各层中分别独立地抽样,再把每层样本合并即所求样本

分层不宜太多,每层中独立随机抽样

各层样本抽取可以按比例分配,也可按变异程度分配 抽样估计:点估计或区间估计

抽样误差计算: 1.

?x?2?wn(1?n22—平均层内方差 ??wh?h) , ?wN2.

?p??whp(1?p)n(1?n), Ph—h层的成数 N3. ?x?t?x,?p?t?p

例3:某企业有甲、乙两车间。都生产同种产品,由于甲车间引进了新设备,提高了劳动生产率,产量是乙车间的1.5倍。现在要了解该产品使用寿命,按产量比例分别在两车间抽样,共抽验100个,得样本资料如下: 甲车间产品 乙车间产品 平均寿命 2000 1800 标准差 6 8 试按95.45%的概率保证,推断该产品寿命范围 n=100, n甲=60 n乙=40?x?2?w0.6?62?0.4?82=0.687, ?n100Confidence level(置信度)为95.45%, t=2?x?t?x=2×0.687=1.37 confidence interval(置信区间)为1920-2×1.37≤X≤1920+2×1.37

该产品寿命范围在1918.63与1921.37小时间。

分层抽样优点:可在不增大样本容量的情况下,降低抽样误差,提高精度

便于对总体的各个部分进行研究 对不同的层可采用不同的抽样方法

组织实施按层进行,综合也较简便Cluster sampling

整群抽样:将总体单位划分为若干个群,然后以群为抽样单位,对抽中的群,调查包含的全部个体。

总体划分为R个群,每群包含M个个体,确定样本容量 r,中选的群内全部个体进入样本,抽样估计。

整群抽样优点:节约调查费用,提高收集实地资料的效率

群单元的抽样框容易获得

在一个地点可以调查多个单位,较少人即能完成

整群抽样缺点:精度比纯随机抽样差 6.3.5 Judgment sampling(判断抽样)

In this approach, the person most knowledgeable on the subject of the study selects elements of the population that he or she feels are most representative of the population.在这个方法中,由对所研究的总体非常了解的人选择最能代表总体的元素组成样本。

The quality of the sample results depends on the judgment of the person selecting the sample.样本结果的质量依赖于选择样本的个人判断力。 6.4 Determining the Sample size

If a desired margin of error is select prior to sampling, the procedures in this section can be used to determine the sample size necessary to satisfy the margin of error requirement.如果在抽样之前就选择了希望的边际误差(极限误差),本节的方法可用于确定满足边际误差要求的样本容量。 制约样本容量的因素:

1.总体各单位标志变异程度,即?或p(1-p),总体各单位标志变异程度越大,容量越多。 2.抽样方法与组织形式。重复抽样比不重复抽样容量多, 分层抽样比简单随机抽样容量少, 整群抽样比简单随机抽样容量多。

3.极限抽样误差(允许误差范围)△x或△p,极限抽样误差越大,容量越少。

4.抽样推断的可靠程度F(t),抽样推断的可靠程度越大,容量越多。 确定样本容量的步骤:

1.确定调查结果所要达到的精度,精度越高,所需容量越多,精度由允许的最大误差△表示。 2.确定调查结果的置信度F(t)。

3.求出表示样本容量n与△的关系式:

2?x?t?x=t?2t?2tp(1?p),n?2, ?x?t?p,n? 2n?x?p24.预估总体参数(?和P)

过去曾做过同样或类似的调查,可以根据那次结果估计;还可以请专家提供:此外可以

采用二步抽样法,先抽一个容量为n1的简单随机样本,利用它的数据估计,从而求出样本容量n的具体数值,然后再从总体中抽取容量为(n-n1)的简单随机样本,与第一步的样本合并为最终样本

5.协调多项目调查中的样本容量

先确定最重要的几个项目的允许误差,分别计算所需要的样本容量。

如很接近,而最大的样本容量也在经费的许可范围内,就取最大的样本容量。 如差别很大,而最大的样本容量又超过经费的许可范围,则只有降低某些项目的精度要求或取消某些项目

本文来源:https://www.bwwdw.com/article/r9sx.html

Top