EP9A2用患者样本进行方法比对及偏倚估

更新时间：2024-06-28 01:10:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

ep9a2实验方案和要求推荐度：
相关推荐

EP9-A2第22卷第19册替代EP9-A第15卷第17册

用患者样本进行方法比对及偏倚估：批准指南——第二版

这个文件介绍的程序供两个临床方法间的偏倚评估及采用一分为二的患者标本和资料数据的方法学比较实验设计。

通过NCCLS认同过程制定全球应用的指南

NCCLS??

通过自愿认同的方式服务于全世界医学科学团体

NCCLS是一个国际性、多学科、非盈利、制定标准、教育型组织，在临床检验界内促进标准和指南的使用和发展。为患者检验和相关临床检验组织制定标准和指南在全球范围内得到一致认同过程。NCCLS制定标准的原则是从质量效益和成本效益两方面考虑，为患者检验和临床检验组织服务。

除了制定和促进标准、指南的推广外，NCCLS还提供了一个开放、无偏见的论坛，供发表影响患者检验和临床检验质量的批评性言论。出版物

NCCLS文件以标准、指南和委员会报告出版。

标准：通过认同过程形成文件，对材料、方法或不能修改的实践方式明确规定其特定的基本要求。另外，标准也可以包含明确规定的选定要素。

指南：通过认同过程形成文件，制定常规实验操作程序、方法或材料的规范。使用者可以使用或修改指南以满足特定的需要。报告：没有经过认同过程，由理事会颁布。认同过程

NCCLS认同过程，建立正式规范的程序如下： 1. 项目的授权；

2. 文件的制定和公开评审； 3. 根据使用者的反馈评论修订文件； 4. 文件被接受为标准或指南。

大多数NCCLS文件只有“建议”和“批准”两个层次的认同过程，根据领域评价或资

料收集的需要，文件也可以有中间（如“试行”）认同层次。

建议：作为NCCLS的建议标准或指南处在被临床检验界评审的第一阶段，此文件需接受广泛、全面的技术审核，包括对范围、方法、用途及技术和编写内容的逐行逐字的审核。试行：当一种推荐方法对某一领域的评审有明确的需要或者当某一建议性方案需要收集特定的数据时，才制定试行标准或指南。同样，试行标准或指南也应接受审核，以保证其有效性。批准：批准的标准或指南已在临床检验界得到认同。应审核并评价最终文件的有效性，确保达到认同（即对以前的版本的意见已圆满解决），并确定对新加的认同文件的需要。

NCCLS标准和指南为实验室实践提供了一个认同意见。NCCLS标准和指南的条款较应用规定或多或少要严格些，因此使用NCCLS文件不能减轻使用者对遵守应用规定的责任。评论

使用者的评论对认同过程很重要。任何人均可以提出评论，根据认同过程由编写文件的NCCLS委员会记录全部评论。在下一个层次文件出版时，这些评论或者修改了的文件由委员会在附录中予以反馈。极力鼓励读者以任何方式、在任何时间对任何NCCLS文件提出评论。评论寄往NCCLS行政办公室。自愿参与

强烈希望各专业的实验室专家能自愿参加NCCLS项目。

用患者标本进行方法比对及偏倚评估；批准指南-第二版摘要

NCCLS文件EP9-A2（用患者标本进行方法比对及偏倚评估；批准指南-第二版）是为实验室人员和生产厂商制定的。它叙述了测定两种方法之间相对偏倚的程序，也叙述了采用一分为二的患者样本设计方法比对试验时所需要考虑的因素。本文包括实验概述、样品数据记录及计算表、总流程图及为初步数据分布的详细流程图，以进行方法比对。文件为不熟悉此程序者提供了样本散点图和偏倚图作为附加帮助。最后一节包括对生产厂商进行偏倚评估以及表示偏倚的声明格式的建议。

目录摘要委员会成员积极成员前言质量系统方法

1. 介绍和范围常规比对试验的概述文本中使用的符号定义 2 仪器熟悉阶段 3 方法比对试验 3.1 实验样本 3.2 比对方法 3.3 测量范围 3.4 样本数 3.5 样本编号 3.6 时间和期限

3.7 数据收集过程中的检查 3.8 质量控制 3.9 删除数据的原则 4 初步数据检查

4.1 方法内双份数据的离群值检验 4.2 数据作图

4.3 线性相关的目测检查 4.4 方法间离群值的目测检查 4.5 X值合适范围的检验 5 线性回归 5.1 计算

5.2 分散均匀性的目测检查 6 计算预期偏倚及其可信区间

6.1 线性回归法（当数据通过合适范围及均匀离散度检查时）

6.2当数据未通过合适范围及均匀离散度检查时，使用分布个别差异计算平均偏倚（分

部偏倚法）

6.3 当数据有不恒定（可变的）精密度时，用分部残差计算预期偏倚（分部残差法） 7 结果解释以及内部性能标准比较 8 制造商的修改 8.1 实验设计 8.2 数据分析 8.3 偏倚性能的声明参考文献

附录A：样本数据记录表附录B：散点图举例附录C：计算举例附录D：线性计算评价和工作组反馈小结团体评价和委员会反馈小结相关的NCCLS出版物

前言

当前文献中有许多使用者和生产厂家对产品评价的例子，对测定同一样品的两种方法进行比较使用了许多不同实验和统计方法。方法学的差异易引起混乱，使用者已经报道这些比较常缺乏足够的数据及缺乏如何进行重复的说明。

越来越认识到适用于诊断设备厂家的评价方法并非总是适用于他的用户。厂家所关心的是与公认的标准和参考方法比较时能建立有效并达到性能要求的偏倚。而用户可能希望与另外一种候选方法进行比较，而不是厂家用于确定偏倚的方法。对于这两种不同的目的来说，实验的规模及数据处理的方法都有差异。

因此，在准备这一文件时，工作组吸收了使用者、工业代表、统计学家、实验室工作人员和医务工作者的经验。由于目前已经有了多种体外诊断方法和试剂盒，工作组意识到一种实验设计难以满足各类使用者和厂家对方法比对的要求。所以，这一指南的初始意图是在设计两种方法的比对试验时提供概念上的帮助。并提供一个实验范例，来说明时间长短、方法、材料、质量控制方法、统计数据处理和结果解释。

在编写这一方案的全过程中，工作组必须决定在示范实验中介绍哪种程序及统计方法。为了满足实验室工作人员及产品制造商的需要，工作组综合了分析方法的用户、这些方法的生产商及管理机构代表的意见。工作组还包括了为达到学术上有效比较所需要的各种建议。必须在操作方案的简便易行和设计的复杂性及保证有效结论必须的统计计算之间进行兼顾。本文件可适用于广范围的被测物及复杂的设备。

本文的重点是独立地建立偏倚的应用特性。如果合适，使用者可以直接地将求出的估计值与厂家标注的能达到的要求或与使用者自己建立的内部标准进行比较。

工作组相信在方法比对中标准化的实验和统计方法会促使评估更能重复并反应真正的性能，以及评价结果的报告更为可靠。同样，在一些体外诊断仪器的评价中，错误地使用和错误地解释统计方法，如回归与相关，都严重影响了这些评价的实用性。因此，本文件意图促进有效地使用统计分析和报告的数据。

我们鼓励制造商应用这一文件去建立并标准化自己的偏倚性能声明。此类声明曾经有多种形式，但他们常没有足够的特异性来让用户验证。

关键词：偏倚，评价方案，实验设计，线性回归，方法比对，质量控制，残差

质量体系方法

NCCLS描述有关标准和指南的质量控制方法，可方便项目管理、为定义一个文件结构

提供模板、通过个性化分析为建立必须的文件提供一个过程。该方法是建立在当前最流行的版本《NCCLS HS1-针对健康保健单位的质量体系模型》的基础上，应用一套关键技术－质量体系要素（QSEs），QSEs适用于任何组织、任何健康保健服务工作流程的全部操作。QSEs为任何类型的产品或服务文件提供一个框架。QSEs文件要素见下表：

QSEs

文件和记录组织人员设备采购与库存过程控制 EP9-A2引用了QSEs全部文件。

信息管理突发事件管理评定持续改进服务和满意度设施和安全 6

用患者标本进行方法比对及偏倚评估；批准指南-第二版 1 介绍和范围

此文件为临床实验室用户和制造商提供了设计一个评价实验的指南，用于评价测定同一被测物的两种方法之间的偏倚。理想情况下，方法（或候选方法）应该与参考方法相比较。但对于用户，参比方法通常是目前使用的常规方法，这样，评价的目的在于确定两种方法得到的相应结果是否在实验统计学的范围内。此时，我们首先关注的是新方法是否是现行方法的合适替代者。

本指南便于估计两种方法在不同样本浓度下的偏倚（预期的差异）。如果参较方法同厂家使用的方法相同，那么就可以把实验结果与厂家的声明进行统计学比较，以确定性能是否可以接受。 1.1 比对试验概述

评价一个分析方法需要一下条件：

? 操作者有足够的时间熟悉仪器操作及保养程序； ? 操作者有足够的时间熟悉评价方案；

? 在评价实验过程中，待评方法及参比方法必须保证有适当的质量控制；

? 待评方法及参比方法必须有足够的数据以保证结果具有代表性（需要多少数据取决于两

种方法的精密度和干扰作用，两方法间的偏倚大小，样本分析物数据的范围及检测的医学要求）。

在熟悉仪器操作过程中，待评和参评方法的操作者必须掌握仪器安装、操作、维护、故障排除及两个方法的质量控制的所有方面。此过程可以在其他评价工作之前或与仪器厂商培训阶段同时进行。两种方法都要进行实验室的常规质量控制。

在熟悉过程后，方法比对实验即可开始。工作组建议在至少5个工作日内最少要分析完40个患者样本。在遵循厂家的推荐进行校准的条件下，增加测定样本数及测定天数，可以提高实验的可靠性及有效性。

用待评方法和参比方法对每一患者样本各作两份测定。分析每一方法在同一批内的双份测定结果。应尽可能使至少50％样本的测定结果处于实验室的参考区间之外。

实验结束后，合理记录数据（如附录所建议的）。数据作图并目测或统计学方法评价图的相对线性、足够范围和离散的均匀性。根据数据的检查结果，使用简单的线性回归或用其他方法估计在医学决定水平处的预期偏倚的可信区间。然后把此评价结果与厂家声明或内部标准进行比较以判断方法是否可以接受。

1.2 文本中使用的符号下类符号用于此文件： X：参比方法 Y：待评方法

DXi或DYi：方法X或方法Y中双份测定值的绝对差值 i:样本数 N：样本总数

1,2或j：双份或重复测定数（在脚注中） DX或DY：方法平均绝对差值

DX`i或DY`i：方法标准化（相对）的绝对差值 Eij：方法间的绝对差值 E：方法间平均绝对差值 E`ij：方法间相对绝对差值 E`方法间相对的平均绝对差值 TLE：检测限 r：相关系数 x：参比方法的观察值 y：待评方法的观察值

xij或yij：第i次测定中，第j个重复观察值（x或y） x或y：x或y的平均值 b：斜率 a：Y轴截距

Y?：待评方法的预期值 SY.X：估计值的标准误

B? c：在浓度c 时预期偏倚的估计值 Xc：医学决定水平 BC：在浓度Xc的真正偏倚

Nk：k组中数据的数目（K＝1，2，3） Bk: k组中平均偏差（K＝1，2，3） SDk：k组中偏倚的标准差

1.3 定义

分析测定范围（AMR）：一种方法能直接测量无稀释样本的分析值范围，预处理不是主要的测定过程。

偏倚：测定值和真值的差值。

临床可报告范围（CCR）：一种方法能定量报告的分析值范围，允许标本稀释，通过预处理延伸直接测定范围。

相关系数（r）:两个随机变量协方差的比率。

Deming 回归：根据方法比较实验中两方法的允许测定误差评估斜率和截距参数的一种方法，每种方法的测定误差均用于评估程序。待测物：一种待测量的物质。

Passing-Bablok：根据方法比较实验中使用非参数程序评估斜率和截距参数的一种方法。真值：多次重复测量结果的均值与可接受参考值间的符合程度。（注：真值的测量通常用偏倚表示。） 2 仪器熟悉阶段

待评方法和参比方法的操作者必须熟悉以下工作： ? 操作 ? 保养程序 ? 样本准备方法 ? 校准和监控功能

生产厂商提供的培训可以作为仪器熟悉阶段的一部分。实验室中需有足够的时间开启和运行仪器以确保操作者理解仪器的全部步骤并能正确操作。工作组建议花5天时间熟悉仪器，对于非常简单的仪器时间可以短一点，对于多通道仪器时间可能长一点。

操作者应该用实际样本进行分析，以注意到常规工作中发生的所有可能的偶然事故（如错误信号、错误纠正、校准等），在此过程中不应该收集数据。当操作者能够自信的操作仪器，熟悉仪器的阶段才可结束。（用户评价不需进行此步骤）在方法比对评估之前，确保有适当控制限的常规质量控制程序。 3 方法比对实验 3．1 检测样本

按照实验室操作规范和制造商的推荐收集和处理患者标本。 3．1．1 储存

储存时间和条件取决于待测成份的稳定性，如果可能，避免储存标本。 3．1．2 拒收标本

如果一个标本被拒收，要记录拒收原因。 3．2 参比方法

实验室当前使用的方法，生产厂家声明的方法和公认的参考方法都可作为参比方法。如果参比方法是参考方法，新方法和参考方法间的测定差值作为偏倚；如果参比方法不是参考方法，新方法测定的真值不能被确定，两方法间测定差值不能作为偏倚而仅仅是差值而已，指定的方法作为参比方法的参考方法，“偏倚”也被使用在这个文件中。本实验提供了两方法间在特定浓度的偏倚估计值和偏倚的可信区间，所以两方法间的差值可归因于待评方法的误差，参比方法应该做到如下几点：

? 具有比待评方法更好的精密度；

? 可能的情况下，不受已知干扰物质的干扰； ? 使用与待评方法相同的单位；

? 可能的情况下，与标准品或参考方法有已知的相对偏倚（可溯源）。

本实验并不能将不同来源的误差归咎于被比较的每一方法。干扰可能与精密度一样影响两方法间测定结果的差值。 3．3 测定范围

应在有临床意义的范围内，即医学决定水平范围内评价待评方法。通常应从低值参考范围到高值参考范围。分析物浓度应尽可能分布在测定范围内均匀分布。分析测定范围是分析物测定浓度区间。表1a和表1 b提供了推荐范围，考虑了待测物的异常情况。 3．3．1 分析测定范围

实验的范围受两种方法分析测量范围的限制。参比方法的范围应至少与待评方法的范围相同，以便在分析测定范围内可以比较。

3．4 样本数

为了满足上述标准要求，至少需分析40个样本。增加样本数将提高统计估计值的可信度，并且增加了把未预计的干扰物发生的影响包括在内的机会。

3．4．1 双份测定为了以下原因，每份样品必须有足够量：（1）能够用待评方法作双份测定；（2）能够用参比方法作双份测定；（3）如果需要应能继续进行追踪实验。

3.4.2 混合样本

如果从一个患者得不到所需的样本量，可以将两个（但不能多于两个）病史相同，被

测物浓度也大致相近的患者标本混合使用，成为“微混合样本”。用“微混合样本”进行双份测定。如果样本是全血，需要进行血清学配型。注意：这种混合过程由于平均化可能掩盖了特殊性或者样本特定的偏倚而导致两种方法比较的乐观假象。

3.5 样本测定序列

在样本的双份测定中，指定第一次测定顺序。按反向顺序检测第二次（双份）。顺序中的浓度应尽可能随机排列。第二次标本的反向顺序可以减少交叉污染及漂移对重复测定标本平均值的影响。例如：样品可以按下述顺序进行，1、2、3、4、5、6、7、8和8、7、6、5、4、3、2、1。参比方法和待评方法均应按上述步骤进行，但每种方法可以有不同的开始顺序。

3.6 时间和期限

对于一个给定的标本，参比方法和待评方法均应在分析物稳定的时间段内测定。对于全部标本，均应在两小时内测定完毕。如果可能，最好使用测定当天的标本。如果使用储存标本，储存方式必须能确保样本的稳定性，以满足参比方法和待评方法的要求。对两种方法用同样的方式储存样本，以避免储存条件的不同引入一个新的变量。

如果在精密度实验之后进行方法比对实验，一天最多能选择并测定8个标本。如果精密度实验和方法比对实验同时进行，在熟悉仪器后，每天只能检测4个标本，在10～15天内完成。将患者标本分布在不同天内和不同批内更好。

3.7 数据收集过程中的检查 3.7.1 分析系统误差

仪器显示存在误差时收集的数据需成文，但在最后的数据分析中不要包括在内。 3.7.2 人为误差

记录任何操作者造成的有文件的误差，但在最后的数据分析中不要包括在内。 3.7.3其他不一致数据的处理

没有查出错误的不一致双份数据时，也应记录而不是剪辑。不能确定不一致的原因时，则应在数据表上保留原始数据，必须按照4.1节和4.4节进行离群值的检验。

3.8 质量控制

实验中应遵循实验室和/或制造商的常规质量控制程序。保留质控图，任一方法出现失控时应重新测定，直到达到要求的样本数为止。

3.9 删除数据的文件化

任何需要删除的数据均应仔细形成文件并保留，记录所发现的原因和问题。 4 初步数据检查

图1概述了本节中所要描述的数据检查程序，图2本方法中每一步骤的逻辑流程图。阅读以下章节时可参考这些图。

图1 流程图概述图2 详细流程图

熟悉仪器数据收集组内离群值检查绘Yv X散点图和（Y-X）vX散点图目测线性检查好目测组间离群值检查一对离群值或无不好如果可能，删除非线性点数据是否保留足够分布范围？否是超过1对离群值调查调查数据有足够的分布范围 r2≥0.95 r2≤0.95 增加数据，延伸分布范围是计算回归目测散点图的均匀性使用线性回归程序与要求或内部标准比较均值和最大偏倚否否使用分区偏倚程序使用分区残差程序 12 A.开始

取得数据n=40 否更换样本字是取消有问题的标本是否问题只限于某一有问题标本？是问题是否发现并纠正？ B.检测组内离群值否双份数据的分布范围是否合适？相对范围检查是否合适？不能接受者是否多于1？否否否进入排除故障程序是是最大重复误差是否大于临床允许误差？是否 C.用(X,Y)数据作图是作YvsX散点图停止实验并通知制造商作(Y-X)vsX偏倚图 D.检查线性目测线性？否目测找出直线范围线性范围临床上是否有意义？用在限定范围内的新鲜样本取代超出线性部分的数据，达到n=40并重新回到开始检查各方法线性并排除问题是是发现问题否？返回开始否是接下页停止实验并联系制造商 13 接上页检查组间离群值目测是否有离群值？无有成对偏差绝对范围检查是否通过？否成对偏差相对范围检查是否通过？否是否只有一个样本？否是是是删除此标本停止研究并联系制造商 F.检查X的分布范围是否合适 r≥0.95 2否能否将范围扩大？是否 G. 计算回归线加入扩大范围的数据重新实验（用全部数据）计算回归线的斜率H. 方差齐性检查否目测分布是否均匀是使用分区残差程序使用分区偏倚程序计算Sy.x预期偏倚及其可信区间将平均偏倚及可信区间与标准比较 14

4.1 方法内双份测定的离群值检查

该方法要用到所有数据点及已删除的离群值，用以下公式计算测量值（Y）和比较值（X）的双份测定结果。分析时要用到两种方法：1）所有数据，2）删除离群值后的数据。计算每个样品双份测定差值的绝对值：

DXi=︱xi1-xi2︱ DYi=︱yi1-yi2︱其中i=样品号（由1到N，N=样品总数）。计算每个方法双份测定的差值绝对值的均值：

取各方法的平均绝对差值的四倍作为每个方法的“可接受”限（取舍到报告值的前一位）。如果任一绝对差值超过此限（X或Y），用标准化（相对）绝对差值进行另外的计算，即：

以相对差值均值的4倍作为标准化的检测界限。

如果有一个值超过上述“可接受”限或相对范围的检测界限，检查原因，并从数据组中删除此值。将该标本的所有数据（X和Y）删除后再继续分析。

如果删除的数据超出一个，则需扩大调查范围，查找出现偏差的原因。如果能够找到问

题所在并能追踪到引起偏差的样品，则应替换这些样品，且将问题记录在案。如果能纠正问题但不能追踪到特定样品，则所有数据组必须重新收集。如果既找不到问题也不能纠正，则可将两次重复测定差值的最大值与此方法在接近的医学决定水平处允许的不精密度进行比较，如未超过允许范围，则可继续进行随后步骤。如超出允许范围，则应停止实验并通知厂家（参见3.9节关于删除数据的文件）。 4.2 数据作图

将数据作四张图：第一张图是

（双份测定的均值）对

（双份测定的均值）的散

点图，以待评方法的结果为Y，参比方法的结果为X（见图B1）。使XY轴的原点和刻度一致，作一条通过原点，斜率为1的直线。第二张图是以每个Yij的结果对

的均值按上述

相同方式作图（见图B2）。第三张图是偏倚图，这种方法要求X轴变量的比较方法为参考方法。每个样品测定的Y与X的均值之差（

—

）相对于

作图（见图B3），此的差值（

—

）相

图的水平中心线为零值。第四张图同上，是单次测定的Y值与对于

作图（见图B4）。

如果比较方法不是参考方法或不能确定，那么第三张图就是个样品测定的Y与X的均值之差（

—

）相对于（

）/2作图（见图B3），此图的水平中心线为零值。

）/2的差值相对于（

）/2

同样第四张图是单次测定的Y值的差值与（作图（见图B4）。

这四张图是非常有用的，因为差值的大小可用来判定非线性关系，离群值，待测和参比方法比较的非齐性方差。 4.3 线性关系的目测检查

在整个测量范围内，检查X（参比方法）和Y（待评方法）的数据图是否呈直线关系。如果线性关系看来满意，则按4.4节给出的方法检查数据（如需了解其它相关信息，请参考最新版本的NCCLS的文件EP-6：定量测量方法的线性评估）。

如果存在明显的非线性关系，目测数据是否存在直线部分。通常，非直线部分出现在浓度范围的两端，如果是这样，则将开始出现非线性部分的数据点去掉，检查剩下部分的线性关系，同时判断此部分是否包含了医学上有意义的浓度范围。如果是，可在这部分范围内另选样品进行测定，以代替被删除的样本。可按4.4节重新检查新数据。

如果非线性部分明显或直线部分太短，停止评价并通知厂家。如果非线性的原因可检查出来并能纠正，则重新开始实验收集新的数据进行评价。 4.4 方法间离群值的目测检查

检查数据图A和图C，目测有无离群值。如果没有，按4.5节继续进行评价。如果有离群值，则可进行类似4.1节用于双份测定的下述计算方法。

计算两种方法的绝对差值及其平均值，即：

Eij=︱yij-xij︱

i=样本号1?40和j=双份测定中的1和2。

计算检测限（TLE），即4·值比较，并标记超出TLE值的点。

计算两种方法的相对差值及其平均值，即：

，用四舍五入到报告值的前一位。把每一个Eij与TLE

计算相对检测限值为4·记超出检测限值的点。

任何一点（Xij，Yij）如未通过上述两种检测方法，则判断为离群点。每组数据中被删除的离群值不能超过2.5%。

如果发现有超过2.5%的离群点，则应调查是否存在干扰、人为错误或仪器故障。如果有几个分析物同时在同一仪器设备上评价，检查出现明显偏差的样本的其它分析物的结果，同时也应检查同一分析批的质量控制结果。如未能查到明显原因，而测定值之间的差值已超出有医学上有临床意义的界限，则应停止实验，或另做40个新样品。

如果出现一个以上的离群点，但它们并未超出医学上有临床意义的界限，则可保留并使用这些数据。如果进一步扩大调查范围查到离群值原因，则分析更多样品，以增加数据量满

，把每一个与此检测限值比较（不用四舍五入），并标

足实验要求。

4.5 X值合适范围的检验

对数据有必要作出一些假设，才能保证回归分析的结果有效。假设之一是X值没有误差。在临床实验室，这是不可能的，因为每一个检测都存在内在误差。但是如果数据的取值范围足够宽，则此种误差对回归结果的影响可以忽略不计。X值的取值范围是否够宽，可用相关系数r做粗略的估计。r的计算公式如下：

其中：

一般情况下，如果r≥0.975（或r≥0.95），则可认为X值取值范围合适。如果根据测定数据算出的r能满足上述要求，则可认为X的误差已被数据范围所抵消。这时就可用简单的直线回归来估计斜率和截距。

如果r≤0.95，则必须分析更多的样品以扩大数据浓度分布范围，然后再重新分析全部数据。如果X的取值范围无法扩大，则可采用6.2节中描述的分部偏倚法代替回归方法来评价平均偏倚。 5

线性回归

5.1 计算

对于成对的数据（Xij-Yji），斜率b和截距a的计算公式如下：

为每个样品两次测定X值的平均值，单个Y对X的均值：

平均Y对平均X值：

此处：

可用以下方程表示：

对于任何给定的X值，用此方程可以计算待评方法的Y的估计值（

）。保留此回归结

果，以备后用。另外一些回归方法，如Deming法或正交回归，仅仅能用于估计斜率和截距。按直线模型拟合，即可按以下步骤进行。千万不可用正交回归或Deming法计算估计值的标准差，因为此值被人为的降低（除非按垂直轴来计算标准误）。 5.2 目测检查离散度

目测离散图和偏倚图（图B1到图B4），检查离散的均匀性。尽管在整个分析测量范围内具有恒定的不精密度（均匀的离散度）的方法很少，但目测检查可以看出在数据范围上限和下限的标准差之间是否有显著性差异（3：1或更大）。如果数据具有可接受的均匀离散度，则可用6.1节中描述的线性回归方程计算平均偏倚，此时可用普通的最小二乘法回归即可估计X和Y之间的斜率和截距。即使离散度不恒定，斜率和截距的估计也将是无偏倚的（在统计学意义上）。此时标准估计误差（Sy,x）不能用于评价围绕回归线的变异。此时可用6.3节中描述的分部残差方法作变异评估和平均偏倚的说明。

仅用40个样品（80个数据对）很难评价离散度的均匀性，工作组建议，当怀疑存在非均匀离散度时，应收集更多的样品。

也可以用标准的统计学方法来纠正有不均匀离散度的回归，包括使用数据变换（如取对

数或加权回归）。 6

计算预期偏倚及其可信区间

6.1 线性回归法（当数据通过适合范围和均匀离散度的检查）

在Y轴方向上数据点与回归线之差称为此点的残差，估计标准误（Sy,x）是这些残差的标准差，是测量围绕回归线的数据点的“离散度”。用下列公式计算某一点（差：

残差ij=

对于平均值（

）：残差j=

对于单个Yij来说，估计值的标准误的计算公式如下：

）的残

对于平均Yj：

在给定的医学决定水平Xc处的预期偏倚（Bc）的估计值，按以下公式计算：

Bc的95%可信区间（在Xc处的真正偏倚）按以下公式计算：

参考第7节的方法解释这些统计量。

6.2 当数据未通过适合范围检查时，使用分部个别差异法计算平均偏倚（分部偏倚法）

按X递增的顺序制表，将数据分成三组（低、中、高），每组应含大约相同的数据。每对数据中的X值按此分组。可从偏差图的两端计算点数到2N/3处作为三组的分界点（以每组保持大致相同数目的数据来部署分界点）。在记录纸上标记这些数据属于哪个组，然后分别用下列方程式计算每组的平均偏倚。

[Nk=K组的数据数（K=1，2，3）]

（m为‘“虚设的”下标，说明K组中成对x’和成对y’的和）

按此计算顺序可以计算组中每个点的偏倚及这些偏倚的标准差。估计的预期（平均）偏倚，且三个－代表它们的均值。

根据临床需要而完全不能依靠数据的分段来选择医学决定水平。如果一个非常重要的医学决定水平与两个组的分界值非常接近，可改变分组以避免在偏倚估计中的不连续性（或选择较大的一个）。

在医学决定水平浓度Xc处，通过选择对于Xc的适当K值并作如下计算以得出预期偏倚

的95%可信区间：

代替6.1节中的

。如果三个

是适当浓度范围内大致相等，则用B

6.3 当数据有非恒定精密度时，用分部残差计算预期偏倚（分部残差法）

如6.2节，把数据分成三组，每组中数据的数目应大致相等。然后对每组数据分别进行计算，此处Nk=K组数据的个数（K=1，2，3）。

（m为‘“虚设的”下标，说明K组中成对x’和成对y’的和）

在给定医学决定水平Xc处，预期偏倚

的估计值为：

按Xc的值选择适当的K组，按下列方式计算出Bc的95%可信区间：

结果的解释以及与内部性能标准的比较

在多数情况下，我们关心现行方法与候选方法之间的差别，此时将预期偏倚的可信区间与医学决定水平点Xc处的允许误差的限值相比较。每个实验室应建立自己的限值标准（可咨询专家或技术文献）。如果预期偏倚的可信区间包含了规定的可接受偏倚，则数据显示候选方法的偏倚小于可接受偏倚。但是如预期偏倚的可信区间不包含规定的可接受偏倚时，则可作出以下两种判断：

如可接受偏倚小于预期偏倚可信区间的下限，则可得到如下结论：

预期偏倚大于可接受偏倚的概率很高（>97.5%），因此候选方法性能与现行方法不相当，不能被接受。

如可接受偏倚大于预期偏倚可信区间的上限，则可得出如下结论：

预期偏倚小于可接受偏倚的机率很高（>97.5%），因此候选方法性能与现行方法相当，可以接受。

如果两种方法不相当，但仍相信候选方法更特异，则不要拒绝新方法，在常规应用前收集新的临床数据（如建立新的参考范围）。应注意实验室要建立两种方法之间的允许差异的标准。当比较两种方法的允许误差时不一定单独应用医学允许误差的标准来判断精密度是否可接受。误差限的标准可在所研究项目的个体内生物变异的文献中查到。

当厂家提供了待评方法的对比数据时，则应另做一些性能评价。但是，应记住参比方法及操作步骤应与厂家所用的完全一致，以便得到可靠的对比。如果厂家声称的平均偏倚包括在95%的可信区间内，则可认为候选方法与参比方法可提供相应的结果。 8

生产厂家的修改

8.1 实验设计

厂家应使用最少100份患者样品，标本应遍布在仪器或方法所能报告的浓度范围内。特别是在多个不同地方收集标本时，或有其他因素影响时，则厂家应使用超过100个病人样品。病人样本可用于评价多个分析物。 8.2 数据分析

根据此文件叙述的基本程序对收集的数据作初步的考查，厂家可以选用任何一种有效的统计方法分析数据，但其最终点必须在有关的医学决定水平上确定待评方法与参考方法之间

的偏倚。为了评价参数有无错误，生产厂家应计算回归斜率和截距的标准误，以及在偏倚声明中的预期值的标准误。如果标准误过大不能被接受，则需另加数据。避免使用无效的计算，例如在垂直（正交）方向上估计值的标准误（Deming法）。 8.3 偏倚性能的声明

在厂家方法比较偏倚的声明中应包括以下项目。除非参比方法是公认的参考方法，否则不得使用“准确度”术语。下列中的任选项目可包括在厂家的声明中。

拟合的线性回归线（任何方法）的斜率和截距；用于回归分析的全部数据；

在规定的医学决定水平处，根据回归线计算的偏倚（在普遍认同的医学决定水平或在参考范围的两端）；

数据范围（在回归分析的X最高值和最低值）；回归分析中所使用的参比方法；

采用的是一个测定值，还是重复测定的均值，如果是均值，每一均值是多少次测定（对X和Y均适用）；

如果在声称的可报告范围内估计值的标准误是恒定的，则可在垂直方向（Y轴）上计算出估计值的标准误；如果总的估计值不合适，则应分别在多个浓度范围内各自求出标准误。

斜率和截距的可信区间；在每个水平上偏倚的可信区间；相关系数；

在X轴和Y轴上，用相同的标度及相同的范围将所有的数据画出散点图，包括以不同的图符标出失控数据点。散点图应包括拟合回归线，理想状态下，应当为过原点的直线（X=Y）；

拟合回归线的方法（普通最小二乘法、加权回归法、Deming法、正交回归法），以及说明最佳的拟合线的散点图。

待评方法（Y）数据的收集天数和校准周期。

表1a 方法学比较试验中数据分布建议表（质量浓度） Test 葡萄糖 (mg/dL) 尿素 (mg/dL) Na+ (mmol/L) K+ (mmol/L) Cl- (mmol/L) CO2 (mmol/L) 尿酸 (mg/dL) Ca (mg/dL) 无机磷(mg/dL) 碱性磷酸酶(U/dL) 总蛋白(g/dL) 白蛋白 (g/L) 总胆红素(mg/dL) (mg/dL) 胆固醇(mg/dL) 甘油三脂(mg/dL) (mg/dL) AST (U/L) γ-GT (U/L) ALT (U/L) LD (U/L) CK (U/L) 肌酐(mg/dL) Fe (μg/dL) 淀粉酶 (U/L) 血红蛋白 (g/dL) RBC (x1012/L) WBC (x109/L) Platelets (x109/L)

A组范围 <50 <15 120-130 <3.0 80-95 <15 <3.0 <8.0 <2.5 120 20-30 5-8 9-11 4.5-6.5 NL-2NL 7-9 4-5 2-5 221-260 125-200 NL/2-NL NL/2-NL NL/2-NL NL/2-NL NL/2-NL 2.5-5.0 150-300 NL/2-NL 12.1-17.0 4.1-6.0 5.1-11.0 151.0-300.0 % 30 20 40 35 30 40 20 40 20 20 40 40 20 30 30 30 40 40 30 30 20 20 40 50 50 40 30 D组范围 151-250 51-100 141-150 >6 30-40 8-10 11-13 >6.5 2NL-4NL >9 >5 5-10 261-400 200-300 2NL-4NL 2NL-4NL 2NL-4NL 2NL-5NL 2NL-5NL 5-10 300-SL 2NL-4NL 6.1-SL 11.1-25.0 301.0-450.0 % 10 20 30 10 10 20 20 10 20 10 10 10 20 20 10 10 10 20 20 20 10 10 10 20 30 E组范围 % 251-SL 10 100-SL 10 151-160 10 >40-SL 10 >10-SL 20 >13-SL 10 4NL-SL 10 10-SL 10 300-SL 10 4NL-SL 10 4NL-SL 10 4NL-SL 10 5NL-SL 10 5NL-SL 10 10-SL 10 4NL-SL 10 17.1-SL 10 25.1-SL 10 451.0-SL 10

表1b 方法学比较试验中数据分布建议表（物质浓度） Test 葡萄糖 (mmol/L) 尿素 (mmol/L) Na+ (mmol/L) K+ (mmol/L) Cl- (mmol/L) CO2 (mmol/L) 尿酸(mmol/L) Ca (mmol/L) 无机磷(mmol/L) 碱性磷酸酶(U/dL) 总蛋白(g/dL) 白蛋白 (g/L) 总胆红素(μmol/L) (mg/dL) 胆固醇(mmol/L) 甘油三脂(mg/dL) (mg/dL) AST (U/L) γ-GT (U/L) ALT (U/L) LD (U/L) CK (U/L) 肌酐(mmol/L) Fe (μmol/L) 淀粉酶 (U/L) 血红蛋白 (g/dL) RBC (x1012/L) WBC (x109/L) Platelets (x109/L) <5.58 <3.0 <2.0 <50.0 NL/2 NL/2 NL/2 0-88.4 <8.95 15 10 10 A组范围 <2.76 <2.50 120-130 <3.0 80-95 <15 <178 <2.0 <0.8 120 20-30 297-476 2.25- 2.75 1.5-2.1 NL-2NL 70-90 580-725 34.2-85.5 6.5-9.1 % D组范围 % 范围 13.83-SL 16.65- SL 151-160 >40-SL >595- SL >3.24- SL 4NL-SL 171-SL 0.34-SL 4NL-SL 4NL-SL 4NL-SL 5NL-SL 5NL-SL 884-SL 4NL-SL 10.61-SL 25.1-SL 10 10 10 10 10 10 10 10 10 10 10 10 20 10 10 E组 % 10 10 10 30 8.32-13.710 8 20 8.50-16.620 5 40 141-150 30 35 30 40 30-40 >6 10 10 20 476-595 20 40 2.75-3.24 20 20 >2.1 10 20 2NL-4NL 20 40 40 >90 >725 10 10 20 85.5-171 10 30 >9.1 20 10 0.086-0.14 20 NL/2-NL 0-NL NL/2-NL NL/2-NL NL/2-NL 97.2-221 8.95-26.9 0-NL 5.65-7.45 3.1-4.0 2.1-5.0 30 10.14-0.23 30 40 20 25 25 30 50 40 NL/2-NL NL/2-NL NL/2-NL NL/2-NL NL/2-NL 221-442 26.9-53.7 NL/2-NL 30 0.23-0.34 20 30 2NL-4NL 10 40 2NL-4NL 10 40 2NL-4NL 10 30 2NL-5NL 20 30 2NL-5NL 20 20 442-884 20 20 53.7-SL 10 40 2NL-4NL 10 50 50 6.1-SL 10 25 7.50-10.55 30 20 20 4.1-6.0 5.1-11.0 40 11.1-25.0 20 10 51.0-150.0 SL, scale limit

151.0- 30 301.0-45030 451.0- 10 300.0 .0 SL NL, 实验室正常范围的上限 upper limit of laboratory's 25

normal range

参考文献：

1． Linnet K. Evaluation of regression procedures for method comparison studies. Clin Chem.

1993;39:424-432.

2． Mandel J. The Statistical Analysis of Experimental Data. Dover, New York: 1964:282-292. 3． Passing H, Bablok W. A new biometrical procedure for testing the equality of measurements from two different analytical methods. J Clin Chem Clin Biochem. 1983;21:709-720.

4．Beyer WH, Ed. CRC Standard Probability and Statistics Tables and Formulae. Boca Raton, Florida: CRC Press. 1999;Table VIII.2:270.

5．Bland JM, Altman DG Statistical method for assessing agreement between two methods of clinical measurement. Lancet. 1986:307-310.

6．Altman DG, Bland JM. Measurement in medicine: the analysis of method comparison studies. The Statistician. 1983;32:307-317.

附录A. 标本数据记录表 A1.例子：空白工作表日期：试验方法：比较方法：

试验方法比较方法试验方法（Y）比较方法（X）均值均值标本号结果1 结果2 结果1 结果2 分析物： 27

附录A（续）

A2.例子：已完成的标本数据记录表第1页共2页日期：1/29/93 分析物：计算举例试验方法：Kipling 比较方法：XYX 标本号结果1（Y1）结果2（Y2）试验方法结果1（X1）结果2（X2）比较方法试验方法（Y）比较方法（X） Y1?Y2 X1?X2

附录B. 从例子中导出的散点图 B1：重复检测均值的散点图

试验方法均值对比较方法均值

附录B. （续）

B2：所有结果的散点图

观察到的单个试验方法结果对比较方法均值