二、诊断试验评价
在一项诊断试验的资料收集完成后,需要对其真实性、可靠性、实用性以及效益进行评价。
【问题5】
采用哪些指标评价案例中诊断试验的真实性?
思路:各种诊断试验的资料可整理成表2-2形式,下面再结合案例数据计算各指标并描述其意义。
知识点
真实性
真实性(validity),也称效度或准确性(accuracy),指诊断试验所取得的结果与实际(真实)情况相符合的程度。评价指标主要有灵敏度、特异度、误诊率和漏诊率,也可用约登指数、似然比和诊断比值比等指标。
表2-2 诊断试验评价资料整理表
1.灵敏度(sensitivity)
在全部有病的人群中,一项诊断试验能正确诊断出阳性结果所占的比例。仍以前述案例为例。
由于诊断试验的研究对象一般情况下是总体中的一个样本,以上计算的灵敏度(或之后的特异度、预测值、一致率等评价指标)为样本指标,因此需要对研究结果进行区间估计。灵敏度区间估计的计算公式如下。
灵敏度标准误(Ssen):
灵敏度95%置信区间:
sen±ua/2Ssen=74.00%±1.96×0.04=(66.16%,81.84%)
漏诊率与灵敏度互补,为1-74.0%=26.0%,指诊断试验能将实际有病的人诊断为非患者的比率,故也称假阴性率(false negative rate)。
2.特异度(specificity)
在全部没有患病的人群中,诊断试验能正确诊断出阴性结果所占的比例。
特异度标准误(Sspe):
特异度95%置信区间:
spe±ua/2Sspe=90.00%±1.96×0.02=(86.08%,93.92%)
误诊率与特异度互补,为1-90.0%=10.0%,指诊断试验将实际无病的人错误诊断为患者的比率,故称假阳性率(false positive rate)。
3.约登指数(Youden index)
也称为正确指数,其范围介于0~1之间,表示诊断试验发现真正患者和非患者的总能力。指数越大,真实性越好。
约登指数=(灵敏度+特异度)-1=0.74+0.90-1=0.64
约登指数标准误(Sγ):
约登指数95%置信区间:
γ±ua/2Sγ=0.64±1.96×0.05=(0.54,0.74)
4.似然比(likelihood ratio,LR)
指某一实验结果有病者与无病者的比值,可同时反映灵敏度和特异度的综合指标,不受患病率影响,比灵敏度和特异度更稳定。
阳性似然比(LR+):诊断试验呈阳性时,患病(真阳性率)与不患病(假阳性率)可能性的比例。比值越大,患病的概率越大,真正患病的人比未患病的人更容易被检查出来。
阴性似然比(LR-):诊断试验呈阴性时,患病(假阴性)与不患病(真阴性率)可能性的比例。比值越小,患病的概率越小。
5.诊断比值比(diagnosis odd ratio,DOR)
指在患病者中诊断阳性与阴性的比值与未患病者中诊断阳性与阴性的比值之比,也是阳性似然比与阴性似然比之比。DOR数值大小也不受患病率的影响而较稳定,因此是诊断试验的重要评价之一。
DOR的取值范围在0~∞,反映诊断试验的结果与疾病的联系程度。其值越大,表明诊断试验的效能越好;其值<1时,表示正常人比患者更有可能被诊断试验判为阳性;其值=1时,表示该诊断试验无法判别患者与非患者。DOR在诊断试验的Meta分析中也是常用指标。
【问题6】
采用哪些指标评价案例诊断试验的可靠性?
知识点
可靠性
可靠性(reliability),也称信度或精确性(precision),是指相同条件下同一诊断试验对相同人群重复试验获得相同结果的稳定程度,可用标准差及变异系数、一致率以及Kappa值等指标评价。当诊断试验测量数据是定量指标时,可用变异系数和标准差来衡量可靠性的大小。
思路:
此处仅结合案例描述计数资料的评价指标。
一致率(agreement/consistency rate,AR):也称符合率或正确分类率(correct classification rate,CCR),指一项诊断试验正确诊断的患者数与非患者数之和占所有诊断人数的比率,又称初一致率或观察一致率。
观察一致率标准误:
观察一致率95%置信区间:
AR±ua/2SAR=86.26%±1.96×0.02=(82.34%,90.18%)
Kappa值是用于衡量诊断试验一致性的另一指标,它考虑了机遇因素对一致性的影响,首先计算机遇一致率,据此可计算Kappa值。
Kappa值考虑了机遇因素对一致性的影响。Kappa值取值范围为-1~+1,若为负数,说明观察一致率比机遇因素造成的一致率还小,-1则说明判断完全不一致;若为0,表示观察一致率完全由机遇所致;大于0时,表示观察的一致程度大于因机遇一致的程度,1则表明两种判断完全一致。一般认为Kappa值在0.4~0.75范围内为中、高度一致,Kappa值≥0.75为具有极好的一致性,Kappa值≤0.40时,表明一致性差。
【问题7】
可采用哪些指标评价案例诊断试验的应用效益?
诊断试验是否切实可行,除了考虑其真实性、可靠性等因素外,还须考虑其应用效益,包括绩效和经济学评价。
1.绩效(performance)评价
诊断试验的绩效评价指标主要包括预测值和患病概率。
(1)预测值:
又称诊断价值,它表示试验结果的实际临床意义,从本质上说是评价真实性的指标。灵敏度和特异度是衡量诊断试验准确性的特征指标,是临床医生是否采纳该诊断试验的重要决策依据。一旦诊断试验的结果报告出来,临床医生更紧迫的工作就是判断有这种结果的人患病几率的大小。预测值是指在已知试验结果(阳性或阴性)的条件下,有无疾病的概率。阳性预测值(positive predictive value)是在试验阳性结果中真正有疾病的概率,阴性预测值(negative predictive value)是在试验阴性结果中真正无疾病的概率。
阳性预测值标准误(Spv+):
阳性预测值95%置信区间:
pv+±ua/2Spv+=69.37%±1.96×0.04=(61.53%,77.21%)
阴性预测值标准误(Spv-):
阴性预测值95%置信区间:
pv-±ua/2Spv-=91.89%±1.96×0.01=(89.93%,93.85%)
阳性预测值越大,表明诊断阳性者患病的几率越高;阴性预测值越大,提示诊断阴性者不患该病的几率越高。预测值的大小会受到试验的灵敏度、特异度和受试对象人群患病率大小的影响。它们之间的关系可用如下公式表示:
因此,当患病率很低时,即使一个诊断试验的灵敏度和特异度均很高,仍会出现许多假阳性,使阳性预测值降低,使其没有实际意义。临床医生在判断一张化验单的阳性或阴性结果的临床价值时,必须结合被检人群的患病率高低,才能作出正确的评价。
患病率与预测值的关系,可用图2-1表示。
图2-1 患病率与预测值关系示意图
(2)验前概率(pretest probability)和验后概率(posttest probability):
在未做诊断试验之前判断受试者患病的概率称为验前概率。验前概率的大小可以根据患者病史、体征等临床资料估计,也可以用该诊断试验的患病率代替,即在该诊断试验中全部被金标准诊断的患者占受试对象总和的比例(率)。患病率的计算公式:
验后概率可利用验前概率和相应诊断试验的阳性似然比计算获得,步骤如下:
验前比(pretest odds)=验前概率/1-验前概率=0.2342/0.7658=0.31
验后比(posttest odds)=验前比×阳性似然比=0.31×7.4=2.26
验后概率=验后比/1+验后比=2.26/3.26=69.43%
此验后概率即是该试验的阳性预测值,表明如果钼靶X线检查阳性,被检查者患乳腺癌的概率由原来23.42%上升到69.43%。
Fangan等绘出了验前概率、似然比和验后概率的换算图,见图2-2,简化了换算过程,方便医生在临床工作中应用。例如,本例中,知道了验前概率和阳性似然比,用直尺连线验前概率23.42%(左侧)与7.4(中间),可以大致判断验后概率约为70%(右侧)。
2.经济学评价
诊断试验除了需要进行真实性和可靠性评价外,由于每种试验方法都要消耗一定的费用,因此也应该进行经济学评价(economic evaluation)。评价的方法包括成本效益分析(cost-benefit analysis,CBA)、成本效果分析(cost-effective analysis,CEA)和成本效用分析(costutility analysis,CUA),分别探讨成本(试验所花费的全部费用)与经济效益、社会效益和生活质量的相对比值。人群筛检试验较诊断试验更需要经济学评价。
【问题8】
如何对两个独立诊断试验之间的差异性进行统计学推断?
判断两个独立诊断试验上述各指标的差异,需要应用假设检验的思想进行统计推断。具体如下:
以约登指数(γ)为例,其统计推断参数U的计算公式如下:
其中,S(γ1-γ2)为两个独立诊断试验的合并标准误,计算公式如下:
图2-2 验前概率与似然比和验后概率的换算图
(引自Fagan TJ.Nomogram for Bayes’s theorem.N Eng J Med,1975,293:257)
其他各指标两两比较的统计学推断可以此类推。