二、诊断试验的研究方法和评价指标
(一)诊断试验的研究方法
1.须同标准诊断方法(金标准,gold standard)进行盲法比较。标准诊断方法是指可靠的,公认的诊断方法,它能正确地区分有病和无病。临床上常用的标准诊断方法包括病理学检查,外科手术所见以及长期随访病例所获得的肯定结论。例如,诊断冠心病的标准诊断方法是冠状动脉造影,诊断肾炎的标准方法是肾组织活检和尸体解剖,诊断胆结石的标准方法是手术所见。具体作法是运用标准诊断方法,在“盲”的条件下将病例区分为实际有病和无病两组,再将待评价的诊断试验与相同病例诊断的结果作比较,然后列出四格表,就可得出真假阳性和真假阴性的结果,如表33-1所示,并计算灵敏度、特异度、预测值和正确指数等。
表33-1 诊断试验评价指标
| 金标准 | |
有病(D+) | 无病(D-) |
诊断 | 阳性(T+) | 真阳性TP | 假阳性FP | TP+FP |
阴性(T-) | 假阴性FN | 真阴性TN | FN+TN |
合计 | | TP+FN | FP+TN | TP+FP+FN+TN |
TN(true negative)=真阴性
FP(false positive)=假阳性
TP(true positive)=真阳性
FN(false negative)=假阴性
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue165.jpg[alt][/alt][/img]
如选用标准诊断方法欠妥,则可造成四格表分类上的错误,影响诊断试验的评价。例如以外科手术诊断胆结石作为标准诊断方法,来评价超声图诊断胆结石的诊断价值时,可以得出结论。但若以胆囊造影作为标准方法进行比较时,就难以断定检出结果的真伪。在难以得到标准诊断方法时,医师们常将新推出的诊断试验与现有的诊断方法比较。此时若新试验比较灵敏,检出的病例就多一些,如以现有方法作为标准,则将新试验多检出的病例错判为假阳性。同样,若新试验更特异,则错判为假阴性的病例将增加。
但获得一项标准诊断方法并非易事。如以检查组织贮存铁是否缺乏作为诊断铁缺乏的标准诊断方法,这就要作肝穿刺或骨髓活检,再行铁染色检查。这种检查方法甚至在某些贫血病例也难以做到。因此,不少医师将铁剂治疗反应作为标准诊断方法。尚有一些病,如糖尿病,其标准诊断方法甚难确定。
为了避免外界环境因素干扰评价工作,要求待评价的诊断试验与标准方法在同一时间和同一化验室内进行比较。此外,为了减少或避免偏倚,检验人员在评价时应实施盲法原则,即他们在不了解病例临床表现情况下进行比较。
2.被检查的病例要具备代表性,即要包括各临床型(轻、中、重型;有或无并发症者)病例。病例的代表性愈好,新的诊断试验的实用价值愈大。
3.选择对照。对照应在性别、年龄、某些生理状态等方面与病例保持均衡。对照不应只包括健康人,还应包括确实未患该病的其他病例以及确实未患该病但在临床上极易与该病混淆的其他病病例。
4.确定正常值。正常值的含义应说清,否则会直接影响正常值的数据。在正态分布时,正常值可用平均数±2SD表示。非正态分布时可用中位数或百分位数表示。绘制患病人群与未患人群诊断试验测定值的频数分布曲线时常有重叠。区别正常与异常的界限是否是最佳的临界点,将对诊断试验的灵敏度和特异度产生明显的影响。
5.要说明病例的来源。不同来源的病例对评价一项诊断试验有一定影响。这是由于不同人群某病患病率的差异对阳性预测值有影响。同时,对照的来源也应效待清楚。
(二)诊断试验的评价指标
1.真实性(validity)或准确性(accuracy)要求一项诊断试验具备能正确地鉴别某病例患和未患某病的能力。这种反映患病实际情况的程度称作真实性,亦称准确性。
一项诊断试验与标准诊断方法进行比较时可得出四种结果(表33-1)。正确结果,即真病例得出阳性结果(真阳性)和非病例得出阴性结果(真阴性);错误结果,即真病例得出阴性结果(假阴性)和非病例得出阳性结果(假阳性)。一项诊断试验得出的正确结果愈多,该试验的真实性也愈高。
一项诊断试验的真实性包括灵敏度(sensitivity)和特异度(specificity)两方面。前者是指一项诊断试验能将实际患病的病例正确地判断为患某病的能力,后者是指一项诊断试验能将实际未患某病的病例正确地判断为未患某病的能力。
灵敏度即真阳性率,为诊断试验阳性的患者占患者总数比例,理想的应为100%。特异度即真阴性率,为诊断试验阴性非患者占无病总人数的比例,理想的应为100%。
假阴性率为实际患病,经诊断试验判断为无病的百分率,即诊断试验判断为阴性的患者占患者总数的比例,又称漏诊率(统计学上称β错误),理想的应是0%。
假阴性率为实际患病,经诊断试验判断为无病的百分率,即诊断试验判断为阴性的非患者占全部无病者的比例,临床上称为误诊率(统计学上称为α错误),理想的应是0%。
灵敏度与特异度之和,减100%为正确指数,亦称约登指数(Youdon’s Index),理想的应为100%。其值愈大愈好。但应注意,正确指数大时,并未告知是灵敏度高还是特异度高,因此,它不能代替上述四项指标。
现以喉拭培养结果为标准诊断方法,评价仅凭临床观察诊断β-溶血性链球菌感染的真实性,结果见表33-2。
表33-2 以喉拭培养法评价临床诊断的真实性
| 喉拭培养 | 合计 |
阳性 | 阴性 |
临床诊断 | 阳性 | 27 | 35 | 62 |
阴性 | 10 | 77 | 87 |
合计 | | 37 | 112 | 149 |
灵敏度%=(27/37)×100%=73%
特异度%=(77/112)×100%=69%
假阳性率%=1-69/100=31%
假阴性率%=1-73/100=27%
从表33-2还可看出,计算诊断试验的灵敏度或假阴性率只与患者数有关,而与非患者数无关;计算诊断试验的特异度或假阳性率只与非患者数有关,而与患者数无关。还要看到灵敏度与假阴性率之和为1。特异度与假阳性率之和为1。
在临床工作中,医师希望一项诊断试验的灵敏度和特异度均高。但实际上很难如愿。事实是若提高灵敏度必然以降低特异度为代价,反之亦然。这种反比关系在连续的计量资料测量中容易见到。
现以诊断青光眼为例说明上述现象。眼内压升高,视神经萎缩和视野的典型缺损是诊断青光眼的三个重要组成部分。人的眼内压水平在一天内有波动,而在青光眼患者,其波动范围会更大,因而眼内压水平并非诊断青光眼的一个可靠指标。再者,眼内压水平相同的人,眼内病理改变并不一样。虽然眼内压水平高者患青光眼的可能性低者较大,但需作进一步检查才能作出诊断。
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue166.jpg[alt]青光眼病人和正常人眼内压分布模式图[/alt][/img]
图33-1 青光眼病人和正常人眼内压分布模式图
眼内压水平与是否患青光眼的关系可见图33-1。甲组为未患青光眼者,眼内压水平波动在1.9~3.5kPa(14~26mmHg)之间。乙组为青光眼患者,其眼内压水平在2.9~5.6kPa(22~42mmHg)之间。两组人眼内压水平在2.9~3.5kPa(22~26mmHg)处有重叠。如欲诊断出全部青光眼患者,即要求试验的灵敏度为100%,则诊断值应定为2.9kPa(22mmHg),但相当一部分眼内压水平在2.9~3.5kPa(22~26mmHg)之间的未患青光眼的人也将诊断为阳性,造成误诊,即特异度差。若将诊断值规定为3.5kPa(26mmHg),则所有未患青光眼者均为阳性,特异度为100%,但眼内压水平在2.9~3.5kPa之间的青光眼患者将诊断为阴性,造成漏诊,即灵敏度差。上述事例说明一项诊断试验要同时兼顾高灵敏度和高特异度是困难的。在临床实践中,是将诊断值定在2.9~3.5kPa之间,即在重叠区的某处。具体确定阳性诊断值的作法,一般只能从临床需要出发,权衡利弊得失再作出。若所研究的疾病病死率高,预后不佳,漏诊将带来严重后果或早期诊断可明显改善预后,则诊断试验的阳性界限可向左移。这样,试验的灵敏度高,阴性结果可排除疾病的存在,但同时假阳性增多。若现有的治疗措施不够理想,可将阳性界限右移以降低灵敏度,提高特异度。当为假阳性者进一步检查所需费用太高,为了节约经费或假阳性可使人心身遭受严重的痛苦或经济受到损失时,高特异度尤为必要。
在糖尿病,如以不同的血糖水平作为诊断标准时,同样可以看到灵敏度和特异度的上述反比关系,如表33-3所示。随着血糖水平阳性界限的增高,试验的灵敏度下降,特异度升高,反之亦然。看来将糖尿病诊断试验阳性界限或标准规定在7.15mmol/L(130mg/dl)时为宜,因此时灵敏度和特异度均处在80%左右。
表33-3 以不同血糖水平作为糖尿病诊断标准时的灵敏度和特异度
餐后2小时的血糖水平 | 灵敏度% | 特异度 |
Mmol/L | Mg/dl |
4.40 | 80 | 100 | 1.2 |
4.95 | 60 | 98.6 | 7.3 |
5.50 | 100 | 97.1 | 25.3 |
6.05 | 110 | 92.9 | 48.4 |
6.60 | 120 | 88.6 | 68.2 |
7.15 | 130 | 85.7 | 82.4 |
7.70 | 140 | 74.3 | 91.2 |
8.25 | 150 | 64.3 | 96.1 |
8.80 | 160 | 55.7 | 98.6 |
9.35 | 170 | 52.9 | 99.6 |
9.90 | 180 | 50.0 | 99.8 |
10.45 | 190 | 44.3 | 99.8 |
11.00 | 200 | 37.1 | 100.0 |
2.可靠性(reliabiliy)、重复性(repeatability)或精密度(precision)是指一项诊断试验在完全相同的条件下,重复作时获得相同结果的稳定程度。在临床实践中,一般用符合率来表示可靠性。
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue167.jpg[alt][/alt][/img]
影响试验可靠性的因素有:
(1)所使用的仪器、药品和试剂的变异:仪器,甚至是精密的仪器,如事前未校正,也可造成测量结果的系统误差。药品的质量,试剂配制的方法以及检验室的环境因素都可对试验结果产生影响。
(2)测量变异:这与试验操作者的技术和责任心有关,因为任何测量都可出现不同程度的测量变异。若操作者能遵循操作规程,操作细心则可减少这种变异。若操作者可在某种程度上自行判断测量结果,则这种变异可以很大甚至难以控制。如用几种方法(即在不同的检验室,由不同的操作人员中使用不同的仪器)进行测量,测量数值的系统误差将是难以避免的。
测量变异尚包括观察者间误差(inter-observererror)和观察者自身误差(intra-observer error)。例如,两位眼科医师同时分别检查100例强疑视网膜炎病人,按病情轻重分别登记,结果两人判断的符合率为72%(表33-4)。
表33-4 两位眼科医师独立检查100例视网膜炎病人的结果比较
A专家判断病情结果 | B专家判断病情结果 | 合计 |
无 | 轻 | 中 | 重 |
无 | 24 | 5 | 2 | 0 | 31 |
轻 | 4 | 18 | 2 | 1 | 25 |
中 | 1 | 3 | 18 | 2 | 24 |
重 | 1 | 2 | 5 | 12 | 20 |
合计 | 30 | 28 | 27 | 15 | 100 |
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue168.jpg[alt][/alt][/img]
这是观察者间误差。
同一观察者对同一批标本前后两次检查也有误差。例如一位细胞学专家两次重复检查肺癌细胞涂片100张,两次结果的符合率仅49%(表33-5)。这是观察者自身误差。
表33-5 同一专家重复两次检查100张肺癌细胞涂片结果比较
第一次结果 | 第二次结果 | 合计 |
不满意 | 阴性 | 模棱两可 | 疑似癌细胞 | 阳性 |
不满意 | 2 | 1 | 1 | 0 | 0 | 4 |
阴性 | 7 | 26 | 19 | 1 | 0 | 53 |
模棱两可 | 4 | 2 | 11 | 5 | 3 | 25 |
疑似癌细胞 | 0 | 0 | 1 | 6 | 6 | 13 |
阳性 | 1 | 0 | 0 | 0 | 4 | 5 |
合计 | 14 | 29 | 32 | 12 | 13 | 100 |
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue169.jpg[alt][/alt][/img]
(3)生物学变异:不同季节和一日内的不同时间个体内部的生物学状态不断地发生变化,也就是产生变异。这样,在某个时点获得的某生物学现象的测量值只能是该时期内多次测量所获得的数值一个样本,并不能代表各次测量的真实数值。临床上各项检验工作多是在某一时点进行的,并将各种检验结果用于指导临床实践。所以临床医师应对个体的生物学变异给予足够的重视。
此外,不同个体的生物学状态不同,这也将影响某生物学现象的测量值,使之产生变异。
实际上,临床上获得的测量值是上述几种影响试验可靠性的因素的累加值,如图33-2所示。它说明不同来源的变异对血压测量值的影响以及这些变异来源的累加作用。还可以看出不同观察者间的测量值虽有差异,甚至可以相差1.5kPa(12mmHg),但可以说由测量所致的变异相对较小,而同一个体在一天内不同时间的血压测量值的变异却很大。这说明一次血压测量值并不能代表该病例的通常血压。最下面的那条血压测量值曲线是许多病例、多个观察者一天中多次测量的结果,它突出地说明上述各种影响可靠性因素的累加作用。
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue170.jpg[alt]变异的来源:血压的测量[/alt][/img]
图33-2 变异的来源:血压的测量
资料来源:周崐,临床实用流行病学,第一版,黑龙江人民出版社,哈尔滨,1989
3.真实性和可靠性之间的关系两者不一定彼此相关。如图33-3所示,有的诊断试验真实又可靠(A),有的真实但不很可靠(B),因为它的各次测量值围绕真实值散在分布,而且范围较广;另一些试验可难可靠但不很真实(C),其测量结果虽稳定,但系统地偏离真实值;有的试验既不真实又不可靠(D)。一项诊断的实用价值决定于其真实性,而真实性又受到可靠性的制约。
4.预测值(predictive value)灵敏度和特异度是一项诊断试验的特征,在决定是否采用某项试验时医师应考虑这些特征。一旦采用了某项诊断试验,医师就要仔细考虑试验结果的意义。如获阳性结果,患某病的可能性是多少;若获阴性结果,未患某病的可能性是怎样?这就是预测值。阳性预测值是指试验阳性的病例中真阳性的比例;阴性预测值是指试验阴性的病例中真阴性的比例。按表33-1,预测值的计算方法如下:
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue171.jpg[alt][/alt][/img]
图33-3真实性与可靠性关系示意图
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue172.jpg[alt]真实性与可靠性关系示意图[/alt][/img]
根据表33-1提供的数据,临床上诊断为溶血性链球菌咽炎的病例中,阳性预测值为44%,阴性预测值为88%。
习惯上以+PV(或PV+)表示阳性预测值,以-PV(或PV-)表示阴性观测值。一般说来,试验的灵敏度愈高,阴性预测值就愈高;特异度高的试验,阳性预测值就越好。但诊断试验的灵敏度和特异度并不能完全决定试验的阳性预测值,在很大程度上与人群某病的患病率有关。不同人群某病患病率可相差甚大,临床医师对此已有共识。例如酸性磷酸酶可用于诊断前列腺癌,其灵敏度为70%,特异度为90%。若将之用于不同人群,所获不同人群阳性预测值差别甚大,如表33-6所示。如在一般人群中用此法作前列腺癌筛检,结果出现大量假阳性者,检查结果很不令人满意。如将此法在高危人群(男性,75岁以上)中作筛检,阳性预测值为5.6%,即平均每18名阳性者中只1名证实患前列腺癌。若将本项诊断试验用来诊断可触及前列腺结节病例时,阳性预测值为93%,即93%阳性患者患前列腺癌。
表33-6 患病率与预测值的关系
| 患病率(1/10万) | 阳性预测值 |
一般人群 | 35 | 0.4 |
男性,75岁以上 | 500 | 5.6 |
临床触及前列腺结节 | 50000 | 93.0 |
资料来源:孙中行,临床流行病学287页,1989