关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

再说精密度(二)

2021.6.29

五、EP05精密度实验

EP05中提出的“批内不精密度”、“批间不精密度”的实验方案,是较客观地反映真实不精密度的估计。可惜,国内大多实验室并没有这样去做。期望大家花点精力,学习EP05实验方案。


目前EP5文件已经出了第三版(EP5-A3),内容较以往的版本要更加完整。但是,也使临床实验室在全面实施中引入了更多的困难。我正在学习中。因此这里,我还是按照EP5-A文件的内容做一个概要介绍。


1、EP05的精密度实验方案主要做法。可以概括成几句话:每天做2 批、每批做2份、连做20天。每批的两个结果间差异,就是对该样品早该批检测不精密度的具体表现。每天上、下午各做一批,20天就有40批。也即最后的数据为20天、40对、80个。将40对结果间的不精密度差异合在一起,将得到较客观的“批内不精密度”的估计。


每批做双份,每天做两批。将每批结果求均值,它代表这批检测的平均水平。一天内两批结果间的差异,代表了每天检测“批间”的不精密度差异。将20天的“批间”差异合在一起统计,得到了20天内批间不精密度的估计。由于这一的估计必然包含了批内不精密度的影响,通过方差估计的计算,可以得到批间不精密度的估计。


每批做双份、每天做两批,则两批4个结果的均值(也可以是各批结果均值的均值),代表当天对该样品检测的平均水平。


一共检测了20天,有20个每天的检测均值。将这些均值求一个总均值(也可以将80个结果去求均值)。所有每天均值对于总均值离散的程度,就是实验室“天间”的不精密度估计。将批内不精密度的标准差、批间不精密度标准差、和天间不精密度标准差以方差形式叠加,得到这20天对该实验样品、在实验的检测系统下、在该检验操作人员实施下,得到的精密度估计。多年前将这样的估计称为“总的不精密度”估计,以后认为这样不妥当,改称为“实验室内”不精密度(withinlabolatory imprecision)。现在对于实验室内不精密度的估计,已经包括了在实验室范围内,检测相同分析物的不同检测系统的精密度实验对不精密度估计综合,成为该实验室该分析物的实验室内不精密度。


这样认真的EP05实验方案,是否很完美地反映实验室在该分析物下的真实不精密度水平了吗?30年前,这些起草EP05文件的专家就已经想的很多、很远。他们是临床实验室的专家、质量管理专家、统计学专家、临床专家、和行政管理官员等的完整组合。


2、起草专家首先考虑的是该文件的目的。

本文件是为体外诊断(IVD)设施厂商和临床实验室方法的开发者,他们期望建立他们方法的精密度能力。也是为这些方法的用户,他们期望确认性能声明的验证,或简单地要求度量他们自己的精密度。自动检测程序的用户期望仅使用最简单的方案去确认厂商对精密度声明的验证的,应按照最近编辑的EP15-A2–用户展示精密度和准确度性能。该导则对这些情况是完全通用的,因为他们包括考虑精密度估计可靠性的目标。


3、在精密度性能确认和验证上的要求有区别。

针对我国大多实验室均为“已经修改了原厂商检测系统组成”的情况,所以,看来不是简单地去验证性能,应该是去确认自己性能(即:去建立实验室自行组合的检测系统性能)、或应该是建立这样新组合的检测系统的分析性能。若这样,鼓励使用EP05做法去确认精密度性能。


4、EP05的实验设计,着重看来还是考虑实验时间长短对精密度性能的影响。已经考虑到许多因素会影响精密度的结果。所以,在设计方案时,在EP5-A前文件上已经规定了:在一台仪器上、一个批号的试剂、一个批号的校准品、一个操作人员的条件下,得到的不精密度水平。在这样的条件下,实验时间成为最重要因素去区分不同精密度的结果。


实验设计没有合并特别单独估计其他可能的变异重要来源,如校准品或试剂批号的差异、或技师/操作人员的差异;但是,厂商应包括这样的因素,以及在不同场地的设施间的变异。影响精密度的其他因素,如样品准备、检测材料稳定性、交叉污染、和漂移等被包括在本方案中作为实验室内部精密度的来源,但没有分别估计。


在完整方案中会使用一个批号的试剂和校准品,但结果的解释(在合适时明确标记)必须包括这个事实,因为这样的结果会低估长期实验室内(或设施内)精密度。引入多批这些物质将增加观察的变异,尽管实验没有允许分别估计这些因素的影响,但会较好地反映检测系统在实际使用中的真实精密度性能。


上述内容明确告诉我们,对某个检测系统的精密度性能估计时,越与日常检验工作接轨的,估计的精密度越真实。不仅需要如EP05要求的,20天、40批、80个结果的做法;而且还应像平时那样:考虑多个操作人员轮班操作的、换用不同批号试剂和/或校准品批号校准、重新校准等,将这些日常的变异因素加到对精密度估计的影响,得到真实精密度水平。但决不可将任何更换试剂厂商、随意调整计算因子等不规范行为加进去!


六、验证实验室精密度性能

当前的实验室管理,要求实验室在使用检测系统检测患者样品、发出检测报告前,必须验证检测系统的分析性能,确认实验室分析性能符合厂商说明书中的性能声明(Claim)。问题是:厂商在建立分析性能中必须要比临床实验室的常规检测严密。为此,在EP05文件中对厂商建立性能提出了建议。可惜,全世界乃至我国,有那么多的试剂、仪器、和组合检测系统,在国内销售前均被我国的CFDA批准准许销售。可是,每家厂商在建立分析性能的严密性上太有问题了。


按照美国政府的认识,无论FDA对体外诊断产品的管理,还是CLIA对临床实验室的管理,均代表政府行为。因此,实验室使用的体外诊断产品必须得到FDA批准;实验室在使用前必须按照CLIA要求对分析性能验证(验收)。验证指标就是厂商的性能声明!因此厂商的性能指标成为国家要求实验室“遵守”的!在验证中,我们实验得到的精密度性能如何与厂商声明的精密度性能比较呢?


现在的做法很简单:在与厂商精密度指标采用的分析物浓度几近一致的条件下,只要实验室得到的标准差小于厂商的指标,该分析物项目的精密度性能被验证认可!我们的实验室管理部门从来没有考虑:厂商说明书中的精密度指标是否符合要求?实验室的实验方案是否符合要求?厂商大多也是选择方便的做!而且为了说明它们产品的质量优秀,数据会选择偏小的报告。


因此,实验室越是认真实验,得到的精密度标准差数据越客观,也许得到验证的机遇也越小!所以,也没有实验室愿意按照EP05文件要求实验,更不要说要如实进行。这样的做法实在是当今的严重弊病!也因为如此,在与厂商精密度指标比较时,两个不确切的精密度比较,很难说明究竟哪个精密度更真实!


为此,在EP05文件专家中,很早就认识到:单单将两个标准差放在一起在数量上去比较是不可靠的。注意,这些比较是一个浓度下的点的比较!影响可靠性大小的最后,在厂商没有说明实际得到标准差的实验方案、但又获得政府批准可用的情况下,只能假设厂商标准差的自由度为无穷大!


而实验室的验证实验也做的很简单,导至得到的精密度性能只能是“真实”标准差的一个很粗糙的抽样,也即不可靠的因素很多。因此与厂商精密度指标比较时,必须调整检测的自由度(degreeof freedom)。使实验室的标准差与厂商标准差比较大小的指标,应在相应估计的自由度下去判断。


在检查用户EP05和EP15的精密度结果是否与厂商“声明”的一致上,CLSI导则创建了卡方检验,而不是F检验,这是依据以下的考虑。在厂商说明书(Instructionfor Use,IFU)的精密度表中,“声明”代表了有关行政机构批准的标记(Labeled)标准差。[我对这段话的理解是:厂商的标准差经FDA批准后,已经成为实验室必须要实现的目标。]


但是,厂商没有明确说明,它们的精密度具体是怎样实验得到的。也即不可能确定与厂商估计有关的自由度,正如应用F检验要求的。也没有任何厂商在进行重复性实验中,是否进行多个试剂批号、多个仪器的实验。缺少这个和其他信息。


用户简直没有任何选择去处理厂商说明书的值;而用户必然处于需要去评估估计自由度的信息。再者,正如前述,实验室本身估计的标准差也有很多不足的地方。一个做法是调整比较时的自由度。一般来说,自由度越小(相当于重复检测次数),得到的抽样标准差值具有的可信性较差,即标准差的可信区间很大。


专家介绍,F检验的自由度完全由比较的两个标准差实验自身各自重复次数决定,没有可以调整的做法,所以,在统计上为统计功效上能力较差。相比之下,卡方检验(χ2)在比较标准差差异上具有较好的统计功效。这也是我以往都不懂的地方,至今依然非常模糊。


请教了工业上的有关精英,他们告知在统计上确实有使用卡方检验比较标准差的内容。


在前述实验得到的精密度估计,应与设施精密度的性能声明进行比较。应使用以下叙述的卡方(χ2)统计。为使用这个方法,性能声明被表示为一个点的估计(即,一个标准差)。重复性和综合精密度的估计应分别进行比较。


性能声明标准差(

142002jn7xeuzo8r8ruka3.png

)须注明。卡方检验使用了用户和厂商的重复性估计二者的平方。必须知道(即用户估计的批内方差)与自由度个数的关系。在本方案叙述的实验中,将具有用来计算批内标准差的数据成对(批内重复检测)那样大的自由度。这样,这将等于实验中的批数,以R注明。检验涉及的计算如下:

检验涉及的计算如下:

142002zggzxxi6gglzl6jg.png


 

 

式中:

   

142002hi24bt9rg49r994n.png

为用户估计的重复性变异方差;

   

142002rsp9rsznl9q9cqzn.png

为厂商重复性变异声明的方差;

 R为批的总数(为  的自由度)。

因为重复性次数为80,所以R就是(80-1)。


应使用上述一样的卡方检验,将实验室内(设施内)精密度与厂商声明进行比较。不像重复性估计,计算ST实际自由度涉及了复杂的计算。因为方案的结构,用户不可假设所有观察值是独立的,去使用习惯估计的自由度(总观察数减1)前的必要假设。以下公式对于ST的自由度T考虑了确实独立性。


附:ST为实验室内标准差。

卡方计算:

 

142002p1oqkkoa0haap150.png

式中:

142002u7sce7b0nus7mgce.png

为用户估计的实验室内(设施内)标准差的平方值。

142002hnztck8gpshlskc0.png

为厂商声明的设施标准差的平方,或医学上要求的标准差的平方。

 T =

142002hlwhli7wbcbssysx.png

的自由度。

设:ME = (批内均方差,或重复性方差);

    MR =

142002y0257908752k50xz.png

(所有批的均方差);

    MD =

142002ccpbo9mrrp9igp3g.png

(所有天的均方差)。

    I为实验天数。

    有关A和B,请同道阅读EP文件。

T的计算较复杂:

142002ehqwas9p8wiksblb.png

    将计算的“自由度”T代入前述的公式,计算出实验室内标准差与厂商声明标准差比较的卡方值。在相应自由度下与临界卡方值比较。计算卡方值小于临界卡方值的,表示实验室内标准差与厂商声明标准差没有显著差异;反之,具有显著差异。

 

七、总结

由于临床实验室检验的特殊做法,全球临床实验室对每个患者标本进行各个分析物的做法,在没有特殊情况下,均对每个分析物只做单次检测就发出报告。临床和患者关注检测结果是否满意的认识,是再做一次的结果是否一样。因此实现重复性是第一位的大事。千万不可疏忽。


30余年前,美国临床实验室标准化委员会(NCCLS)已经考虑到多方需求和影响精密度的各个因素,写就了EP05文件。完成一个重复性实验方式多样,为了患者样品检测结果的可靠性,必须充分考虑众多影响因素,以适当方式得到可靠的精密度估计。


我在临床实验室领域内从事工作和学习50年了,但是还有许多方面需要我继续努力学习的。精密度是我将其视为临床实验室的关键所在。几乎所有的临床检验问题大多均由此产生。因此始终关注和重视精密度性能是解决问题的基础起点。我愿意与临床实验室的同道一起,为提高临床实验室地位去努力,依靠自身的提升,让临床和患者认可。临床实验室的地位只能靠自己去争取。


在与CLSI交流中, Dr. Neill Carey专家告诉我: “在EP15-A2中的方法比较实验,在EP15-A3中删除。在EP-15A3中,我们不再比较两个方法精密度的估计。”“我们做了实验去评估在EP15(A2和A3)中一个方法的精密度。我们将观察(计算)标准差与厂商声明的标准差做比较。若观察到的标准差超过厂商声明的标准差,我们计算了厂商声明标准差的确认限值,将观察到的标准差与确认限值比较。如果观察到的标准差超出确认限值,仅有5%的可能性,认为观察到的标准差超出确认限值因机遇所致;即观察到的标准差确实高于声明的标准差。”这两个文件已经正式发布。新的文件不再要求临床实验室对验证中实验精密度超出厂商声明精密度,进行统计检验。这无疑是简化了验证程序。


推荐
关闭