临床（医学）实验室如何评定常规检验结果的测量不确定度

2019-09-24 15:13 文章来源：检验医学网

杨振华

       在去年8月本刊登出我的文章“测量不确定度评定在检验医学中的应用”后，听到不少同志的反应和意见，特别是冯仁丰同志在9月份刊登的文章“临床检验的常规检验结果是否必须引入不确定度？”列举了不少质疑点。我理解最重要之点可能是“?因临床检验的特性和严重缺陷，导致不确定度难以、也不应在我们的常规检验结果中予以贯彻实施?”。事实上，不少同志还对我说“你说了不少测量不确定度的优点，但你介绍的‘QUAM’方法很难用于常规检验”。这个批评是一针见血的，如果不能为临床实验室建立一个较简单、又实用的评定常规检验结果的测量不确定度的方法，在检验医学中应用测量不确定度只能是一句空话。
       类似的问题和争论在国外也同样存在。著名的美国Clinical Chemistry 杂志在2003年第11期“Point/counterpoint”栏中发表二篇论文，第一篇是美国学者Krouwer书写的题为“【观点】对在诊断方法中用GUM方法评定和报告不确定度的评论”。从题目就可看出，作者对常规检验中应用测量不确定度采取批评态度。虽然不是从根本上反对GUM的原理，但是强调了在临床化学常规测量项目中无法或很难评估其结果的不确定度。作者在结论中指出：“由于一些常规测量方法与参考方法相比, 常规方法的结果常有较大的差异，即，有较大的不确定度，这是GUM未预计到的。”因此作者认为：“除非常规方法接近决定方法，否则不建议对常规结果，还要按GUM来评定不确定度”。换言之，作者认为目前尚未准备好对常规测量结果应用不确定度。
       此栏中第二篇文章，是对Krouwer文章观点的反方文章。由丹麦学者Kristiansen书写，题目为：“【反方论点】用GUM方法评定不确定度”。主要内容为二：一部分内容是进一步解释在检验医学上如何应用GUM、QUAM文件。因篇幅关系，此处不作详述。另一主要内容是针对Krouwer 的批评“在临床化学常规测量项目中无法或很难评估其结果不确定度”，Kristiansen提出了一个将测量不确定度评估方法标准化或简单化的途径，即评估不确定度的MODULE简化方法。作者在本文的“标化不确定度评估程序”一节中对MODULE作了扼要说明。笔者摘译如下：“评估不确定度的原理容易理解，但在实际中计算却是困难的。评估每一分量的不确定度很费时，此外对不同测量方法有多种合并标准不确定度的方法，增加了此过程的复杂性。Krouwer说“?要保证‘尽力来识别这些影响’?是超出大多数实验室的范围”。?要对花费在评估不确定度的努力，与测量目的与时间、经济资源有限二者之间权衡中，当然（Krouwer的提法）是合理的。?所以假如能将不确定度评估程序标准化，包括将确认系统方法时得到的数据，应用和输入到QUAM提出的不确定度评估的程序中，人们将会获得很多。”
       作者继续谈到“?‘模块化评估不确定度的模型（Model forModular Evaluation of Uncertainty，MODUS）’的方法，将确认数据的应用进行系统化”。简言之，它将临床化学的测量过程概括为：将一项测量程序应用到一个样本和一个校准品。此通用模型可用?公式1表达的数学关系加以说明。?

在此公式中，Canalysis是分析的结果，fsampling是一个由取样过程（包括样本贮存）引起的校正因子，ftraceability是一个校准品量值的系统误差所引起偏移的校正因子，fother则是前面各项不包含的其它因子引起偏移的校正因子。?假设公式1中各项关系是独立的，?则很方便可用相对标准差来表达：

与uanalysis/Canalysis有关的相对标准不确定度可用长期分析不精密度，CVA来估值。如果不知道分析物的CVA，则可通过实验获得。此不确定分量是由若干与分析相关不确定度分量（如稀释、注加、分析和对校准函数的估计）合成，由于不需要分别对每一分量进行评估，所以用CVA将很省时。Cresult的不确定度还包括从fsampling（样本不确定度），ftraceability（校准品赋值的不确定度，与溯源链有关的不确定度因素），以及来自fother所组成。例如，没有包括在分析不精密度（CVA）组分中的分析漂（analytical
drift），就可以包括在fother 。
下图表示了这些因素间关系：

       Kristiansen的MODULE方法缺点是明显的，正如作者自已提到的“公式1所表达的简单模型的缺点是：缺乏每一输入量对不确定度贡献的详细信息，这样无法提供改进分析的基础。”
       用作者自已的话，对此法小结为：“但是，如果得到的合成不确定度对方法应用是足够的，一般可接受此权衡方法。”
       此法的优点是明显的。在评定测量不确定度的过程中已见不到在GUM和QUAM中的复杂的鱼骨图以及各种表格，简化为四个主要因素。为在检验医学中建立一个简单、实用计算测量不确定度的方法和公式提供了一个很好的开始。
       几乎同时澳大利亚临床化学家协会（AACB）为了配合澳大利亚的国家实验室综合认可体系（NATA）在澳大利亚按照ISO 15189的要求，认可临床实验室，制定了“定量医学检测中的测量不确定度-实验室应用指南-”（《临床实验室》已全文翻译刊登在2009年11期）。提出一个重要论点，即“测量的不确定度”应只限于分析（测量）过程。导则中写到“分析前和分析后的因素并不影响检测程序本身固有的不确定度，因此这些因素可排除在测量不确定度的评估外。”在导则的图1中用一圆框将测量不确定度局限于分析过程。在另一处更明确写到“在本导则中，将不在实际检测方法中的不确定度组分（如分析前和分析后的各个组分）排除在测量不确定度定义之外。”
       我个人非常同意此观点。假如将分析前和分析后组分的不确定度也包括在内，则最后的合成不确定度将相当大，而医学实验室又无法控制住众多的分析前、后组分。这样，很难用导则中下列语句来说明不确定度的重要性：“测量的不确定度提供了对检测结果质量的一个定量评估，因此是校准和检测实验室质量体系的一个核心要素。”因为实验室应负责的，也是能控制的，只是分析过程的“测量不确定度”。
       实际上就是进一步将Kristiansen提出的公式1中的4项删去样本一项，得下式：

       在此AACB文件中，另一个亮点是对GUM等经典文件的评论“GUM的方法主要为研究物理测量，如长度、温度、重量、导电率等，并用数学理论和实验观察来评估检测程序所有相关组分的标准不确定度。目前还不清楚如何将GUM方法应用于临床检验，?”。在另一处说“GUM是世界范围内通用的作为描述测量的不确定度理论与应用的主要文件。它基于可靠的数学理论，利用概率密度函数和不确定度传播定律作为建立模型的基础。它概括了评定程序以及将所有输入量的标准不确定合成到最终结果的过程。不过GUM也认识到正规的GUM计量学方法可能很难适用于某些检测类型。”
       ISO/IEC 17025和ISO 15189都指出评定测量不确定度方法的严密程度应基于客户的需要。这些都说明按澳大利亚学者观点，人们很难在医学实验室应用经典、精密的评定测量不确定度的方法。在AACB文件的“工作组对医实验室的建议”一节中写到“工作组观点为，在医学检测中应该使用测量的不确定度的概念，但对实验室和检测结果的临床用户二者而言，评定测量不确定度必须具有实用意义。”工作组花了不少篇幅叙述了什么是“对实验室和检测结果的临床用户从二者而言”、“评定测量不确定度必须具有实用意义。”用下面一段话概括为：“对能完全溯源的方法（如校准品具有与国际认可标准相关的声称偏移和不精密度）而言，??对此类方法测量的不确定度的评估可包括校准品的声称不确定度和方法的长期不精密度，按方差进行合成。”医学实验室有可能从这找到实用的评定测量不确定度简单又实用的方法。
       上述观点得到不少学者赞同，例如Clinical Chemistry从2003年刊登了上述二篇文章后，陆续刊登了一些有关不确定度评估的论文，用“measurement uncertainty”检索从2004年至2009年9月的Clinical Chemistry杂志，有二篇论文和三封读者来信。
       二篇文章中，一篇登在“实验室管理”栏目中，即：“从一个实验室的确认研究中评定测量不确定度：在测量血铅中的应用”。另一篇登在“技术摘要”栏目中，虽为摘要也长达4页，即：“在血清分析中应用精密度和偏移计算测量不确定度”。仔细阅读此二文章，可以发现它们基本上都是将偏移的不确定度和从不精密度导出的不确定度作为合成不确定度的主要来源。
       在2009年4月，NATA颁布了技术说明--33“化学测量结果不确定度评定与报告导则”。其中明确提出，对单一实验室，可以从实验室内的偏移与精密度数据来评定测量不确定度。合成（标准）不确定度（y）可表示为：
uC(y)2=sL2+ub2
      式中：uC（y）为（y）的合成（标准）不确定度；sL为实验室内复现条件下获得的标准（偏）差；ub为与偏移相关的标准不确定度。
       通过上述文献和讨论，说明经典文件（GUM、QUAM）评定测量不确定度方法存在不少缺点，首先是评定方法太过于繁烦、麻烦，临床实验室很难采用；另外一个缺点是由于评定方法灵活性和多种多样，不同学者对同一方法、甚至对相同与类似数据，由于所用评定途径不同，最终评定的测量不确定度可有成倍乃至多倍的差异。下图引用自今年Schumann教授在我国演讲的幻灯片：

       图中为世界上各个酶学参考实验室对同一标本，测量GGT结果的测量不确定度。绿色为比对组织者Schumann教授实验室的相对不确定度约为2.5%，白色为6个欧州实验室结果，最低者不到0.5%，最高者接近4.0%，二者相差接近8倍。蓝色为10个中国实验室结果，差异明显小于欧州实验室，究其原因，可能是因为中国实验室每年至少开一次会，相互交流在评定测量不确定度方面的方法和经验，取得了一定程度的共识。
       通过上述文献和讨论，可明显看出一个趋势，即临床实验室可以不用经典GUM/QUAM的方法和公式，可考虑应用较简单的公式，如uC（y）2=sL2+ub2来评定常规检验结果的测量不确定度。
       目前我国临床实验室是否可以、而且应该开始尝试用此种简单方法来评定我们常规检验结果的测量不确定度。假如在临床实验室开始尝试评定测量不确定度的同时，我国检验医学有关学术组织、标准制定团体、或者国家实验室认可委能考虑制定“临床（学）实验室评定常规检验结果的测量不确定度”导则。这有可能让各个实验室评定的测量不确定度在一定程度上成为可比性。根据近年来在参考实验室工作经验和学习国内外近年来在测量不确定度、溯源诸方面的发展，提出如下意见供讨论，希望同志们提出意见和批评。

1. 先从评定测量过程的不确定度开始

由于评定测量不确定度工作复杂、麻烦，应先从容易着手地方开始。建议在我国开始评定常规检验结果测量不确定度时，可参照AACB的意见“在本导则中，将不在实际检测方法中的不确定度组分（如分析前和分析后的各个组分）排除在测量的不确定度定义之外。”但似乎应对下一段话有所保留“分析前和分析后影响并不影响检测程序本身固有的不确定度，因此这些因素可排除在测量的不确定度的评估外。”因为分析前并不是与实验室工作完全无关的，特别当实验室接收样本后，除少数急诊样本有可能立即处理（离心、分杯?）并在最短时间上分析仪测量外。大多数样本常需一段时间，此时不少因素都会对测量结果的不确定度有所贡献，国内外一些实验也证明此点。但无论如何，在开始评定测量不确定度时，将此问题搁置一下，待后解决可能还是合适的。

2. 选用“经验方法”评定测量不确定度

       “GUM”、“QUAM”文件建议的评定测量不确定度的方法非常详细、复杂。在EUROLAB文件中称为“?在进行评估定量测试结果的不确定度时，常常批评GUM是无法应用的。产生此印象是由于GUM评估不确定度几乎只采取一种方法：就是基于一个测量方法的全面的数学模型，其中每一专门输入量对不确定度的贡献，要对不确定度的贡献进行单独地评估然后按方差合成。”说明不仅是临床实验室，在一般检测实验室（testing laboratory）也同样存在直接应用GUM介绍的“自下而上”或者“模式”方法的困惑。事实上，“真正的GUM原理承认可有各种（评定测量不确定度）的方法。”?“在最近另一种‘经验方法’受到了很大关注。它们是基于整个方法的性能调查上，设计并尽可能包含较多有关不确定度来源的影响来进行。这些方法所使用的典型数据为从实验室确认研究中得到的精密度和偏移、质控、实验室间方法确认研究、或者能力比对。”前面介绍的Kristiansen的“MODULE”方法、AACB方法和NATA方法大概都可说属于此类“经验方法”。对于我国临床实验室，可考虑先使用NATA下述计算合成不确定度的简单公式，即：
uC（y）2=sL2+ub2
       式中：uC（y）为（y）的合成（标准）不确定度；sL为实验室内复现条件下获得的标准（偏）差；ub为与偏移相关的标准不确定度。
       事实上，如仔细研究“QUAM”导则，它对初步划出的鱼骨图进行整理时，所遵循的原则也是首先将各组分中的正确度和精密度分量分开，然后将所有精密度因素合在一起，通过实验，以A类方法计算出不精密度的标准不确定度。或者利用本实验室的室内质控数据用B类方法计算出不精密度的标准不确定度。其次对鱼骨图各个分支中影响正确度各分量计算其标准不确定度。换言之，也是将测量不确定度的主要来源分为精密度（随机误差）和偏移（系统误差）二大组分。印证了NATA公式的合理性，并没有违背“GUM”和“QUAM”原则。

3. 按EUROLAB文件介绍步骤评定测量不确定度

       EUROLAB在2007年3月公布的“Technical report No.1/2007”名称为“对测量不确定度重新审视：不确定度评估的另一种可选方法，Measurement uncertainty revisited：Alternative approaches to uncertainty evaluation”。对实验室如何通过反覆测量参考物质，并利用得到的数据如何计算做了详细说明。在其中的“1.2.2单一实验室确证方法”节中称“此方法的基本原理是将从精密度和偏移评定的不确定度进行合成：
测量准确度=精密度和正确度
测量不确定度=实验室内复现性和偏移的不确定度
将测量（不）精密度的标准（偏）差s平方和对说明测量偏移的
不确定度b平方相加后开方，就可评定测量不确定度。按下列公
式得出合成（标准）不确定度：
u=√s2+b2 ”
       综上所言，如果一个临床实验室要评估自己检验结果的测量不确定度，使用此段中介绍的评定测量不确定度的公式，不失为一个良好的开始。
3.1 评定实验室内复现性不精密度（s）
       对临床实验室而言，评定精密度的不确定度不是一件困难之事，在EUROLAB文件中对此提到“可以从方法确认、质量控制监测中观察到测量方法的精密度，以及从重复测量得到标准（偏）差对其定量。根据测定的条件，可得到二类不同的标准（偏）差：
       Srw实验室内重复性标准（偏）差，在重复性条件下得到：同一操作者、同一装置、短时间重复。
       SRw实验室内复现性标准（偏）差，在复现性条件下得到（常称为“中间条件”）：不同操作者（如可能）、不同装置（如可能）、长时间重复。
       对于评定测量不确定度的目的，应使用实验室内复现性标准（偏）差SRw，正常情况下实验室内重复性标准（偏）差Sr 不适用于评定测量不确定度，因它排除了对不确定度的很多贡献w”。
       临床实验室应对此论述中的不给予足够重视。一般而言，在物理测量，计量界常只关注重复性标准（偏）差，临床实验室则必须关注长期、不同条件下的精密度。因此在实际工作中，完全可以考虑AACB的建议，从室内质控数据得到的测量不确定度。可能比按EP-5文件进行实验得到的数据更为可靠、实用。长期在实验室工作同志都认识到，通过专门实验得到的变异系数（精密度）常称之为最适变异系数（OCV），可以成为实验室室内QC追求的目标，但常规实验室实际的常规变异系数（RCV）往往是OCV 的二倍甚至更多。
       从本实验室长期（一般为6个月）室内质控数据处获得实验室内复现性（中间条件）标准（偏）差既方便又可靠。因为在这一期间内，往往使用多个批号试剂、校准品、和质控品。比按EP-5进行实验所得数据，更能反应实验室的实际工作能力和情况。对于新开展的检测项目，往往需在较短时间内评定不确定度，建议至少取30个工作日室内质控数握，并最好使用至少2个批号的试剂和校准品。
3.2 评定偏移的不确定度（b）
       对临床实验室而言，如何得到偏移数据常是困难的一步，也是长期来困惑临床实验室的问题，很多临床实验室不知如何通过量值溯源，求得偏移数据。长期以来有人介绍可按美国NCCLS的文件EP-9进行方法比较，将二法结果之差作为偏移。以目前观点来看，这种做法只能算当时一种权宜之计。在20世纪，由于对常规检验结果如何溯源一直存在争论。一些管理机构，如美国的FDA在批准测量体系时，常以第一个批准的作为以后批准的标准。
       但是到了21世纪，相继公布了ISO 17511和ISO 18153文件，对临床实验室结果如何溯源，有了较明确的说明和论述。现在很清楚，只有与参考方法比较时，才有可能求出偏移。
       EUROLAB文件认为“参考物质是最常用于此目的（检查偏移），但也可用参考方法取代”。并提出“从观察偏移所取得的典型数据有：
△重复测量参考物质与相应参考值的均差
外加一个参考物质赋值的不确定度uref
       通过均差△、参考物质赋值的不确定度uref、以及检查偏移时重复测量参考物质平均值的（不）精密度s/√n，可评估出偏移对测量不确定度的贡献，公式如下：

?当进行大量重复测量时，上述公式中的s2/n一般可忽略不
计。”
当临床实验室分别按3.1和3.2评定了实验室内复现性不精密度（s）和偏移的不确定度（b），再代入下式就可得到合成（标准）不确定度：
u=√s2+b2。

4. 能否直接应用供应方提供的产品校准品的不确定度?

上面介绍方法是临床实验室按ISO 15189“5.6.3应设计并实施测量系统校准和正确度验证计划，?”的要求，通过测量参考物质或与参考方法对比求出偏移及其不确定度。中小型临床实验室往往不易做到。还有一些方法如大多数免疫学方法也很难做到，因为缺乏参考方法或者需要高级精密仪器，如GC-MS或LC-MS/MS。随著几年来CE（欧共体）执行IVD法令（IVD Directive），著名国外供应方和一部分国内供应方能提供产品校准品赋值的不确定度，甚至可提供质控品赋值和其相关的不确定度。此时是否可考虑使用供应方的产品校准品的不确定度来计算测量不确定度？我个人认为，回答应该是：必须慎重，至少应考虑如下几点：
4.1 评定参考物质/校准品不确定度的公式
首先应该了解不论参考物质还是各种校准品的不确定度不仅仅源自测量过程，至少还有下述来源，即：瓶间差、长期稳定性和短期稳定性。在我国临床检验标准委员会上报导则“参考物质酶活性浓度的赋值”中介绍参考物质赋值不确定度应按下列公式评定：

       式中uchar为对参考物质进行赋值测量时的标准不确定度（有些文件以umeas表示），ubb为参考物质瓶间差的标准不确定度，ults和usts分别为长期稳定性的标准不确定度和短期稳定性的标准不确定度。此公式应该也同样适用于产品校准品。如果供应方提供的不确定度设有包含后三项，则明显低估了该产品校准品的不确定度。对冷冻干燥制品，瓶间差常是测量不确定度的重要来源。
4.2 应了解umeas（uchar）是否通过多个实验室、使用多台常规仪器而得到
       应了解上一级的参考值如何传递到供应方产品校准品的赋值。如果采用了类似Roche公司的做法，通过在多个实验室，在多台自动分析仪上用常规检验方法，同时测量上一级参考物质和产品校准品，而给产品校准品赋值。可以下式计算出产品校准品赋值的测量不确定度：
u（b）=s/√n
       按此方法求得的测量不确定度已经充分考虑不同实验室在自动分析仪，使用常规方法各个组分对此产品校准品赋值不确定度的贡献。再按4.1中公式考虑产品校准品的瓶间差、长期稳定性和短期稳定性对合成不确定度的贡献。
4.3 考虑上一级参考物质/主校准品对产品校准品不确定度的贡献
       产品校准品在溯源第二层次的末端，它一般溯源到供应方的主校准品或者直接溯源到最上层的参考物质〖一般是基体（质）效应不明显的二级参考物质〗。所以在最终评定产品校准品的合成（标准）不确定度时，应按下式合成：

       此时将此合成不确定度uc（csss）直接做为b代入下面公式得到一个完整的产品校准品的合成不确定，应该问题不大。
u=√s2+b2
       如果供应方所提供的产品校准品赋值的不确定度没有将上述各个组分考虑在内，其测量不确定度往往偏小，甚至出现产品校准品赋值的不确定度小于上级校准品或参考物质赋值的不正常结果。
4.4 供应方应用其它传递方式
       如果供应方未应用多个实验室或者未在临床实验室常规仪器对商品校准品进行传递，临床实验室应仔细研究供应方提供资料和数据后，决定是否直接使用该供应方产品校准品的不确定度。

5. 临床实验室如何检查供应方资料

       ISO 15189的“5.6.3”写到“?f）若由供应方或制造商提供溯源性，应有关于试剂、程序或检验系统溯源性的声明文件。”
临床实验室可从下列方面进行检查：
       检查校准品的溯源性是否符合ISO 17511规定和要求，正确地进行溯源。例如称酶活性浓度的产品校准品是溯源到IRMM 的ERM，这是不对的，因为此类参考物质缺乏互换性，应该溯源到 JCTLM认可的IFCC（37℃）参考方法；同样如供应方声称其血常规产品校准品能溯源到某一种参考物质，这也是不对的，因为至今尚无JCTLM认可的血常规参考物质。
       要求供应方提供对校准品、质控品赋值和评定其测量不确定度的方法或途径。其报告的是合成不确定度uC 还是扩展不确定度U，如是扩展不确定度U，其包含因子k值是多少。
       重要的要检查供应方对校准品、质控品赋值和评定其测量不确定度的方法是否恰当或合造。

6. 中国临床实验室“应设计并实施测量系统校准和正确度验证计划”

       评定测量不确定度的意义不仅限于它是测量质量的定量指标。临床实验室应该按照ISO 15189“5.6.3应设计并实施测量系统校准和正确度验证计划，?”的要求，通过测量互通性的参考物质（多为具有与被测样本相同基体（质）（体）的二级参考物质）检查本实验室测量（分析）系统的正确性。
       我国临床实验室因为各种问题和困难，大多数实验室很难与欧美发达国家中的临床实验室一样，使用企业提供配套的测量（分析）系统。常使用不同来源分析仪、校准品和试剂组成本实验室特定的测量（分析）系统，这就需要实验室能按上述要求，检查本实验室各项测量的偏移和不精密度，从而评定测量不确定度。检查实际达到的测量不确定度是否能满足临床和顾客的要求（目标不确定度）。
       对于少数使用配套分析仪器的实验室（一般是大型实验室）也应该有检查本实验室测量（分析）系统的正确的能力，最新数据都说明虽然CE执行IVD Directive多年，但并不是所有欧美IVD企业都能达到要求。

小结：

著名检验医学标准化专家Dybkaer曾发表一篇很有名的论文“从总允许误差通过量值溯源到无偏移结果的测量不确定度（From total allowable error via metrology traceability to uncertainty of measurement of the unbiased result）”将测量不确定度与正确（无偏差）的测量结果有机地联系在一起，形象地说明如果人们追求准确、可通用的临床实验室测量结果，必须要解决测量不确定度的问题，而解决此问题又与溯源是紧密联系在一起。

摘自定向点金《临床实验室》杂志2010年第一期