利用DPS剔除测量数据中的异常值

更新时间:2023-07-22 06:59:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实验数据中总有那些数据比较异常,但是又不能随意删除,又不想放入数据中应用,这篇论文利用DPS剔除测量数据中的异常值。

误差与数据处理 

利用DPS剔除测量数据中的异常值

周中汉 王汉江 李 梅 郭定和

(湖北大学物理学与电子技术学院,武汉430062)

摘 要 本文简述判别测量值异常的三种统计学方法,并结合实例介绍如何利用DPS软件发现及剔除实验数据中异常值,该方法简单、直观、快捷,适合学生用于物理实验的数据处理和分析。

关键词 DPS;测量数据;异常值剔除

0 引言

在科学实验中,由于外界条件的改变和主观因

素的影响,实验测量的数据中个别数据往往会产生较大误差,即出现异常值。这些异常值的存在往往会掩盖研究对象的变化规律,因此,精度。

仔细检查和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并将相应值剔除,此方法称为物理方法;如果上述方法无法作出判断,就应采用统计学方法,即给定一个显著水平,即发生概率,一般为1%或5%,并确定一个相应的置信限,凡超出该误差范围的测量值都是小概率事件,造成该误差的值就为异常值,应予以剔除。

用计算机剔除实验数据异常值的方法有关文献[1-3]作了报道。本文将结合实例给出一种“傻瓜式”的新方法,该方法更加简单、快键,且无需编程和计算。

然后,按t分布来判别被剔除的值xj是否为异常值。

则xj为异常值,应若|xj- xn-1|>K,,。其中:α为显

nKn,α)为检验系数,可通112 狄克松(Dixon)准则

设有一组测量数据x1≤x2≤x3≤…xn,且为正态分布,则可能为异常值的测量数据必然出现在两端,即x1或xn。

狄克松给出了不同样本数量n时检验统计量的计算公式(见表1)。当显著水平α为1%或5%时,狄克松给出了其临界值D1-α(n)。如果测量数据的检验统计量D>D1-α(n),则x1为异常值,如果测量数据的检验统计量D′>D1-α(n),则xn为异常值,否则为正常值。表1

数据个数n

3≤n≤7

狄克松检验统计量计算公式表

统计量D

x1为可疑值D(x2-x1)/(xn-x1)

xn为可疑值D′(xn-xn-1)/(xn-x1)

1 异常值判别的统计学方法[4-111 t检验(3S)准则

8]

8≤n≤10(x2-x1)/(xn-1-x1)(xn-xn-1)/(xn-x2)11≤n≤13(x3-x1)/(xn-1-x1)(xn-xn-2)/(xn-x2)14≤n≤30(x3-x1)/(xn-2-x1)(xn-xn-2)/(xn-x3)

t检验准则又称罗曼诺夫斯基准则,它是按t

分布的实际误差分布范围来判别异常值,对重复测

量次数较少的情况比较合理。

先将一组测量数据x1,x2,x3,…,xn中的可疑的值xj剔除,计算余下n-1个数的平均值x n-1及

n

标准差sn-1,即,x n-1=6x,sn-1=

n-1i=1,i≠ji

n

6(xi-x n-1)2

n-2i=1,i≠j

113 格拉布斯(Grubbs)准则

设一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即x1≤x2≤x3≤…≤xn,可能为异常值的测量数据一定出现在最大或最小的数据中。

  61

实验数据中总有那些数据比较异常,但是又不能随意删除,又不想放入数据中应用,这篇论文利用DPS剔除测量数据中的异常值。

 误差与数据处理若最小值x1是可疑的,则检验统计量G=( x-x1)/s;若最大值xn是可疑的,则检验统计量G=(xn- x)/s。式中 x是均值、s是标准差,即 x=ni=1

n

当样本量n>100时,计算统计量En(n)=(n-1)(xn-xn-1)/(6xi+xn-1)及En(1)=n(n-1)

i=1n-1

6xi,s=

n2

6(xi- x)。n-1i=1

x1/(6xi+nx1)。

i=1

n

对于给定的显著水平α和样本数量n,若En(n)>F2,2n-2,1-α=(n-1)(a-n-1

对于检验统计量G,格拉布斯导出了其统计分布,并给出了当显著水平α为5%或1%时的临界值

G(1-α)(n)。G(1-α)(n)称格拉布斯系数,可通过查

-1),则判断xn值;

-n-1

表得到。当最小值x1或最大值xn对应的检验统计量G大于临界值时,则认为与之对应的x1或xn为可疑异常值,应予以剔除。114 指数分布时异常值检验

若En(1)<F2,2n-2,α=(n-1)[(1-α)

则判断x1为异常值。

-1],

2 DPS系统的异常值检测

DPS数据处理系统(DataProcessingSystem)平

设一组测量数据为指数分布,为了检验数据中

是否存在异常值,将其按大小顺序排列,即x1≤x2≤x3≤…≤xn。检验最小值、最大值是否为异常值的检验方法如下:

当样本量n≤100时,计算统计量Tn(n)=xni=1

台是由浙江大学研制的通用多功能数理统计和数学模型处理软件系统[9]。DPS对异常值的检验是非

常方便、。

,次测量得到一组实1141,31143,31143,31142,,31140,31141,31143,31142,31139,142,31143

6xi及Tn(1)=x1/6xi。

i=1

nn

005)数量n,Tn)、Tn(1)分别对应的临界

)。若Tn(n)>Tn(n)(1-值Tn(n)(1-α)、Tn(1)(αα)时,认为xn为异常值;若Tn(1)<Tn(1)(α)时,认为x1为异常值。

获得实验数据后,首先启动

DPS软件,然后按以下步骤操作:

1)将实验数据输入至工作表;

2)用鼠标选中待检测数据,如图1所示;

图1

  62

待检测数据工作表

实验数据中总有那些数据比较异常,但是又不能随意删除,又不想放入数据中应用,这篇论文利用DPS剔除测量数据中的异常值。

误差与数据处理 

3)执行菜单方式下“数据分析—异常值检验”命

令,出现如图2所示的用户对话框;在对话框中,可选择显著水平值0105或0101。如果样本为正态分布,可选用前面3种检测方法;如果样本为指数分布,则选择第4种方法

5)将第8行第1列的异常值31130删除。再次重复步骤2)~4),系统显示如图4所示的检测结果:没

有检测出异常值。至此,完成了用DPS软件对异常数据的判断和剔除。

3 结论

从以上用DPS判断和剔除实验数据异常值的实例可以看出,该方法处理数据的过程简单、直观、快捷,适合学生用于物理实验的数据处理和分析。在实验教学中推广使用DPS软件,既能使学生快速计算和判断实验结果,也有助于提高实验教学质量。

参考文献

[1]严昌顺1用计算机快速剔除含粗大误差的“坏值”[J]1计量技

术,1994(5)

[2]王鑫,1用Origin,17(1[],,1SPSS系列应用实战篇

[1,2002

[]1误差分析与测量不确定度评定[M]1中国计量出版社,

2003

[5]朱鹤年1物理测量的数据处理与实验设计[M]1高等教育出版

图2用户对话框

4)本例选取第一种方法(3S法)水平值为0105。点击“,3130为

异常值

社,2003

[6]梁晋文,陈林才等1误差理论与数据处理(修订版)[M]1中国计

量出版社,2001

[7]费业泰1误差理论与数据处理(第五版)[M]1机械工业出版社,

2000

[8]周源泉.质量可靠性增长与评定方法[M].北京航空航天大学出

版社,1997

[9]唐启义,冯明光1DPS数据处理系统-实验设计、统计分析及数

据挖掘[M]1科学出版社,2006

浅析测量结果的数据修约

张长水陆 蕊阳明珠

(广西壮族自治区计量检测研究院,南宁530022)

摘 要 校准证书的校准结果和测试报告的测试结果一般要求给出被测量的最佳估计值及测量不确定度,以

便使用者正确利用测量结果。本文阐述了数据修约对测量结果使用的影响,通过实例分析了被测量最佳估计值及其不确定度的数据修约规则。

关键词 测量不确定度;数据修约;有效数字

0 引言

众所周知,一个完整的测量结果至少应包括两

个部分:一是被测量的最佳估计值;二是测量结果的

(以下简称不确定度。在《测量不确定度表示指南》

)和《指南》《JJF1059-1999测量不确定度的评定与

(以下简称)这两个文件中,仅对表示》《评定与表示》

被测量的最佳估计值及测量不确定度的位数进行了规定,即:uc(y)和U取一位或两位有效数字均可,被测量的最佳估计值应修约到与其测量不确定度的

  63

本文来源:https://www.bwwdw.com/article/ye9m.html

Top