正态性检验的几种方法
更新时间:2023-04-07 03:06:01 阅读量: 教育文库 文档下载
正态性检验的几种方法
一、引言
正态分布是自然界中一种最常见的也是最重要的分布。因此,人们在实际使用统计分析时,总是乐于正态假定,但该假定是否成立,牵涉到正态性检验。目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro-Wilk 法(W 检验)、D ’Agostino 法(D 检验)、Shapiro-Francia 法(W ’检验)。二是正态分布的拟合优度检验,如2χ检验、对数似然比检验、Kolmogorov-Smirov 检验。三是图示法(正态概率图Normal Probability plot),如分位数图(Quantile Quantile plot ,简称QQ 图)、百分位数(Percent Percent plot ,简称PP 图)和稳定化概率图(Stablized Probability plot ,简称SP 图)等。而本文从不同角度出发介绍正态性检验的几种常见的方法,并且就各种方法作了优劣比较,还进行了应用。
二、正态分布
2.1 正态分布的概念
定义1若随机变量X 的密度函数为
()()()+∞∞-∈=--,,2122
2x e x f x σμπσ
其中μ和σ为参数,且()0,,>+∞∞-∈σμ
则称X 服从参数为μ和σ的正态分布,记为()2,~σμN X 。
另我们称1,0==σμ的正态分布为标准正态分布,记为()1,0~N X ,标准正态分布随机变量的密度函数和分布函数分别用()x ?和()x Φ表示。
引理1 若()2,~σμN X ,()x F 为X 的分布函数,则()??
? ??-Φ=σμx x F 由引理可知,任何正态分布都可以通过标准正态分布表示。
2.2 正态分布的数字特征
引理2 若()2,~σμN X ,则()()2,σμ==x D x E
引理3 若()2,~σμN X ,则X 的n 阶中心距为
()()N k k n k k n k n ∈???=-+==2,!!121
2,02σμ
定义2 若随机变量的分布函数()x F 可表示为:
()()()()x F x F x F 211εε+-= ()10<≤ε
其中()x F 1为正态分布()21,σμN 的分布函数,()x F 2为正态分布()22,σμN 的分布函数,则称X 的分布为混合正态分布。
注:引理1、2、3的证明见参考文献[1]和[2]。
三、几种常见的正态性检验及其应用
3.1 计算综合统计量法
3.1.1 Shapiro-Wilk 检验(W 检验)
1.W 检验的一般步骤
Shapiro-Wilk 检验在大多数情况下具有很高的效能和综合性。检验的基本步骤如下:
1)建立原假设0H :X 服从正态分布
2)把从总体中获得的n 个样本观测值按由小到大的次序排列成:
()()()n x x x ≤≤≤ (21)
3)选择恰当的统计量W 为:
()()()[]()∑∑=-+??????=??????-???????
???-=n i i i i n n i i x x x x w a W 12_2
121 式中[]2/n 表示2/n 的整数部分,系数()W a i 可查W 检验的系数表,[]2/n 表示数2/n 的整数部分。
4)根据给定的检验水平α和样本容量n 查W 检验统计量W 的p 分位数得统
计量W 的α分位数αW 。
5)计算并判断:给定样本值1x ,…,n x ,计算W 并与αW 比较,若αW W <则拒绝0H ,反之,则不能拒绝0H 。
注:有关W 检验的原理及W 检验的系数及分位数表见参考文献[5]。
2.W 检验的应用
抽查用克矽平治疗的矽肺患者10名,得他们治疗前后血红蛋白的差(单位:克%)如下:2。7,-1。2,-1。0,0,0。7,2。0,3。7,-0。6,0。8,-0。3,试用W 检验检验治疗前后血红单倍的差是否服从正态分布。
把题中的数据按由小到大的次序排好填入表1
表1 患者血红蛋白差值表
i ()i x ()i x -11 ()()i i x x --11
()W α 1 -1.2 3.7 4.9 0.5733 2 -1.0 2.7 3.7 0.3291 3 -0.6 2.0 2.6 0.2141 4 -0.3 0.8 1.1 0.1224 5
0.7
0.7
0.0399
把表的数据代入公式()()()[]()∑∑=-+??????=?
????
?-??????????-=n i i i i n n i i x x x x w a W 12_
2
121,经计算得9251.0=W 。 若取05.0=α,查统计量W 的α分位数表得10=n 时,842.0=αW ,因为
αW W >,所以不拒绝原假设。
虽然W 检验是一种有效地正态性检验方法,但它一般只适用于容量为3至50的样本,随着n 的增大,一般用于计算分位数的分布拟合的技术不能使用。
3.1.2 D ’Agostino 检验 (D 检验)
D ’Agostino 检验适合测量次数较多的情况,检验统计量为
()()
∑∑
==-???
??+-=
n
i i n
i i X
X n X n i D 122/31
21 在零假设为真时,
28209479.0)(≈D E ,
n D Var /02998598.0)(=,
()02998598
.028209479.0n D Y -=, 渐进分布为)10(,N ,但由于接近)10(,N 的速度十分慢,因而 D ’Agostino 用随机模拟法得到了Y 的分位数表,在给定了显著性水平α后,用统计量Y 进行检验的拒绝域为
????
??≥≤-212ααY Y Y Y 或。 注:有关D 检验的原理及D 检验的分位数表见参考文献[6]。
3.2 正态分布的拟合优度检验
3.2.1 2χ拟合优度检验法
1. 2χ拟合优度检验法的理论
2χ拟合优度检验法是基于2χ分布函数来分析连续性测量数据是否遵从正态分布的问题。并根据正态分布的理论(期望)次数(oi f )和实际分布的次数(ei f ),对次数进行假设检验,从而判断分布是否遵从正态分布。
()∑-=ei ei oi f f f 2
2χ
其中,oi f 为次数分布各区间实际次数,ei f 为正态分布各区间的理论次数。 在SPSS 中进行2χ拟合优度检验,读取检验的伴随概率(p )。如果05.0>p ,则可以用正态分布来拟合;如果05.0
2χ拟合优度检验法不仅适用于正态性检验,还适用于其他分布的检验,对正态性检验来说不具有特效型。
2. 2χ拟合优度检验法的应用
由于考试成绩总体是一个很特殊的总体,用2χ的拟合优度检验法对其进行
正态检验时存在明显缺陷。例如,一组很低含有负值但有对称性的数据,经2χ检验后也可被认为服从正态分布,但它作为学生的考试成绩就不具有实际意义。所以,对考试成绩总体进行正态分布检验时,仅按通常2χ拟合优度检验是不够的。 设试卷总分为W ,根据教育统计学的基本原理,在正常的教学条件下,学生成绩应该服从均值为 %70?W ,标准差为%10?W 的正态分布。如果均值和标准差的值过低或过高,都说明我们在教学过程中出现了较大的失误,此时进行正态性检验已失去应有的实际意义。为了能反映在正常教学条件下,教和学的具体情况,在对学生考试成绩这一特殊总体进行2χ的拟合优度检验时,合理服从正态分布的成绩应满足以下条件:
①()8.05.0/,
∈W X ,其中X 为学生平均成绩(样本均值) ②根据概率论中的σ3原则,标准差()155,
∈σ ③按通常拟合优度的2χ检验法,检验学生成绩总体服从正态分布。 计算公式如下:
样本均值∑==n
i i x n X 1
1, 样本方差()21
21∑=-=n i i X x n S , 式中n 为考生人数。判断均值和标准差是否满足条件①②,若不满足则认为成绩不服从正态分布。若满足则利用试卷成绩的均值X 及方差2S 作为总体均值μ 及总体方差2σ的估计,用ξ表示试卷成绩总体,则作如下假设:
()
20,~:S X N H ξ 为了检验上述假设是否正确,系统将成绩区间[]W ,0划分为k 个区间,分点为121-<< ()???? ??-Φ=≤=S X t t X P t F i i i )(,)(x Φ表示标准正态分布的分布函数i=1,2,…, k 。则各区间的理论频数i i nP U = 构成统计量()∑=-=n i i I i U V V x 122。 根据皮尔森定理可知,上述统计量趋近于自由度()m k --1的2χ分布。其中m 为总体未知参数的个数,对于正态分布m 应等于2。 设给定信度α,查2χ分布表,得()212--k x a ,若()2122-- 说明这批成绩分布服从正态分布,否则拒绝0H 。 3.2.2 Kolmogorov-Smirnov 检验 (K-S 检验) Kolmogorov-Smirnov 检验通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体。容量n 的样本的经验分布函数记为)(x F n ,可由样本中小于x 的数据所占的比例得到,给定分布函数记为)(x G ,构造的统计量为 ()))(max(x G x F D n n -= 即两个分布函数之差的最大值,对于零假设: 总体服从给定的分布)(x G 及给定的α,根据n D 的极限分布 (∞→n 时的分布) 确定统计量关于是否接受零假设的数量界限。 3.3 图示法 3.3.1 图示法的原理 一般的二维概率图是这样一种散点图,其中一个坐标为原始数据排序后的数据,而另一个坐标来自标准分布的期望有序统计量。如果来自某一总体的数据的分布只与标准分布仅差一位置或尺度常数,那么最终概率图将近似为一条直线,极端偏离直线表明该资料不是来自所指定的分布。随着概率图的不断发展,目前已发展了许多新型的概率图,如SP 图等。 设)()2()1(n X X X ≤≤≤ 是分布函数)(X F 的有序随机样本,假设存在连续位置尺度函数(){}σμ/0-X F (本文假定)(0X F 为正态分布),其中μ和σ分别为总体 均值和标准差,通常可用样本的极大似然估计μ ?和σ?代替。 要检验0F F =,等价于下列散点图中点近似在一条直线上。 (1)QQ 图就是作1q 与()1X 的散点图。 (2)PP 图就是作i t 与i u 的散点图。 (3)SP 图就是作i r 与i s 的散点图。 表2 三种图形的()%-1100α接受区间计算公式 图形形式 接受区间界限 QQ ()[]{}{} a i d q F F X 2/arcsin sin 2/10210πσμ±+=- PP { } a d t u 2/)arcsin(sin 2/12π±= SP a d r s ±= 这里QQ 图较为常用,而SP 图效率最高,因为SP 图相当于对统计量进行方差稳定化转换(反正弦变换)。 此外,由于人们对概率图中点偏离直线的看法不同,因而在作结论时带有人为主观因素,所以给它们加上接受区间是十分必要的,本文采用Michael 拟合优度检验方法[2]给出了这些图形的接受区间。 Michael 拟合优度统计量sp D 是一种类似于Kolomgrov-Smirnov 拟合优度统计量D 的统计量, 11max s r D SP -= 通过它可在以上概率图上加()%-1100α接受区间,如果图中所有点落在这些区间之间,那么就可认为在α水准上接受假设,其中a d 为sp D 在显著性水准α处的界值。 3.3.2 图示法的应用 某市1971年调查200例正常成人血铅含量(ug/100g),数据见表3,试考察此资料是否服从正态分布? 表3 200例正常成人血铅含量(x)与人数(f)的原始记录频数表 x f x f x f x f x f x f 3 1 10 9 17 12 24 6 31 4 40 2 4 5 11 5 18 5 25 2 32 6 43 1 5 10 12 7 19 6 26 5 33 2 47 1 6 7 13 12 20 8 27 2 36 1 50 1 7 13 14 10 21 5 28 2 38 2 53 1
正在阅读:
正态性检验的几种方法04-07
静电喷涂操作规程11-26
铵盐硝酸导学案12-26
软件产品化, 国内IT人之痛08-07
图书馆管理系统任务书01-06
上海八年级上册期中期末语文试卷课内现代文说明文议论文综合作文05-09
茂名市捐款清单05-07
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 检验
- 方法
- 2022年西南大学国际学院445汉语国际教育基础之中国文
- 动词-ed形式和-ing形式区别
- 江苏省盐城市市直六校2012届九年级4月联考英语试题
- 高考语文二轮 诗歌鉴赏 专项培优易错试卷(1)
- 2022年沈阳工业大学F561材料科学基础考研复试核心题库
- 数字积分法轮廓插补的FPGA实现方法
- JavaScript“未结束的字符串常量”原因及其解决办法总结
- 2022-2025年中国金属探测器行业市场研究及投资战略预测报告
- 大学生寒假社会实践报告 百货店售货员(完整版)
- 河南重点项目-安阳内黄东风片区改造项目可行性研究报告
- 消防通道路面施工组织设计
- 2016-2022年中国供应链金融市场专项调研与运营战略分析报告
- 酒店管理财务 酒店维修费用及记录管理2015(叶予舜)
- 管道焊接施工-首件制成果
- 供电企业劳动定员标准
- 小学校安全生产活动总结完整版
- 【CN110161136A】一种片剂冒泡辅助分散磁性固相萃取测定水中持久
- 2022年大连外国语大学汉学院445汉语国际教育基础之中
- Catalog of Galaxy Morphology in Four Rich Clusters Luminosit
- 中级会计师考试《财务管理》第三章精练含答案