现代医疗诊断方法的缺陷
我们正在学习的这种诊断方法,在丹尼尔·卡尼曼看来,可以被视为“第一系统思维”(或称系统1)的一个例子。这种思维是自动的、快速的、直觉的,通常毫不费力。1它使用启发法(heuristics)或经验法则:通过反思,绕过分析过程,快速找到问题的解决方案。相比之下,“第二系统思维”(或称系统2)是一个涉及大量分析的、缓慢的思考过程,它发生在大脑的另一区域,甚至和“第一系统思维”有着不同的代谢需求。有人可能会认为主诊医生更依赖于“第二系统思维”,而实际上并非如此。多项研究表明,他们的专长主要源于混合了直觉、经验和知识的启发法。事实上,40多年前,医生们被教授的方法是快速反思假设生成法,以此方法为代表,“第一系统思维”被认为是获得正确诊断的范本。如果一位医生在会诊患者的5分钟内完成了诊断,其准确率是惊人的98%;但如果他没能在5分钟内获得诊断思路,那么最终的诊断准确率只有25%。2
然而,这种诊断方法在急诊室却备受挑战。急诊时,医生必须迅速评估每位患者,然后将其收治入院或令其回家。一次错误的诊断可能导致患者出院后很快死亡。在美国,每年有近20%的人会被送往急诊室,处于高风险的人群相当巨大。一项关于Medicare(7)患者急诊室评估的大型研究显示,美国每年有超过一万人在被送回家后一星期内死亡。在这些人当中,既有曾被诊断出患有重病的,也有完全未被诊断出疾病的。3实际上,这种情况并非急诊室独有。4另外,根据美国国家科学院在2015年发布的一项具有里程碑意义的报告显示,大多数人在其一生中将至少经历一次误诊。5
上面的这些数据暴露了临床医生误诊所导致的严重问题。“第一系统思维”(我称之为“快速医学”)经常失效,要想获得精确的诊断,许多习惯性的诊断方法都需要改进。之后我们可以推进“第二系统思维”。卡尼曼曾说过:“阻止源于‘第一系统思维’的错误方法原则上很简单:意识到你处于认知雷区的迹象后,减速,并从‘第二系统思维’借力。”6但迄今为止,尽管研究有限,试图用“第二系统思维”补充“第一系统思维”的尝试都不太成功:要求医生进入分析模式,再有意识地放慢思考速度,最后诊断的准确性并未得到明显的提高。7
其中一个主要原因是,使用“第一系统思维”或“第二系统思维”并不是唯一的相关变量,其他因素也会对诊断产生影响,比如在医学教育中缺乏对诊断技能的重视。美国内科医学认证委员会为研究生医学教育制定的22个里程碑中,只有两个与诊断技能有关。8一旦医生受过培训,其诊断水平会与他的整个职业生涯息息相关。令人惊讶的是,没有任何系统可供医生在其职业生涯中获得有关其诊断技能的反馈。在《超预测》(Superforecasting)一书中,菲利普·泰洛克(Philip Tetlock)说道:“如果没有得到反馈,自信心的增长会远快于准确性的提高。”9相较于对诊断技能缺乏重视,另一个导致诊断失误的问题更容易被忽视,那就是缺乏对深层认知偏差和扭曲的认识。而这些,至今仍未被纳入医学院诊断教学之中。
在《思维的发现:关于决策与判断的科学》(The Undoing Project: A Friendship That Changed Our Minds)一书中,迈克尔·刘易斯(Michael Lewis)写了关于加拿大医生唐纳德·雷德尔迈耶(Donald Redelmeier)的故事。雷德尔迈耶年少时曾受到阿莫斯·特沃斯基(Amos Tversky)和丹尼尔·卡尼曼的启发。10在森尼布鲁克医院(Sunnybrook Hospital)创伤中心实习期间,雷德尔迈耶要求同事们放慢速度,克服“第一系统思维”,尽量避免判断中的心因错误。“当一个可以一次性完美解释所有事情的简单诊断忽然出现在你脑海中时,你要非常小心。这时候你需要做的是,停下来审视一下这一想法。”11
曾有一名患者因心律不齐而被误诊为甲状腺功能亢进,最后却发现他是肋骨骨折和肺部塌陷。雷德尔迈耶称这一误诊为代表性启发法(representativeness heuristic)的一个例子。代表性启发法是一种基于过去经验而做出决策的思维捷径,最早特沃斯基和卡尼曼曾对此进行过描述。认知偏差问题在许多医生身上普遍存在,代表性启发法之类的思维模式就是一个例子。人类通常会遇到的偏见形形色色、种类繁多,但我只想强调一些会影响诊断准确性的偏见。12需要说明的一点是,医学上这些根深蒂固的认知偏差只是人的天性,与是否在做诊断或推荐治疗无关。但一旦关乎医疗决策,其影响便会攸关生死。
事实上,一些导致误诊的认知偏差是非常容易预测的。人类目前大约有一万种疾病,医生不可能记住关于这些疾病的所有要点。如果在做鉴别诊断时,医生记不住所有可能的相关信息,那么他们就只能根据记忆中“可得”的部分进行诊断,而这最终可能导致诊断错误。这就是“可得性偏差”。
还有一类偏差,往往是由医生每次只与一位患者打交道导致的。1990年,雷德尔迈耶和特沃斯基在《新英格兰医学杂志》上发表的一项研究表明,由于每位医生诊疗接触的患者相当有限,他们的医学判断可能会受某些个别患者的影响,尤其是最近接触过的患者。13医生们的亲身经历往往可以推翻来自大样本人群的硬数据,例如,在判断一位患者是否患有某种罕见病时,只因之前遇到过有类似症状的患者,这些经历将左右医生的后续诊断。我曾诊治过一位卒中患者,他的心脏瓣膜上出现了一种非常罕见的肿瘤——乳头状纤维母细胞瘤。自那之后,后来的许多患者总会令我联想到他们是否也得了同种罕见病。更复杂的是,如雷德尔迈耶所发现的那样,80%的医生认为他们并不会受此影响。
我不禁联想到一个我曾亲身体会过的有关这种偏差的例子。通常,植入冠状动脉支架诱发心脏病的可能性很小,这类心脏病发作很少伴有症状,但可以用血液心肌酶检查进行诊断,鉴定心肌细胞是否受到损伤。20世纪90年代,我和同事发表了一系列论文,研究关于被称为围手术期心肌梗死的疾病。当时,大多数心脏病专家都认为我们错了,他们认为这个问题完全被夸大了。当时,一位心脏病专家每年做的手术可能不到100例,或至多几百例,而且他们并不经常使用血液化验来评估患者的心脏是否受损。另外,所有医生都有一种偏见,那就是他们认为自己医术高超,自己的手术治疗不会是引发心脏病的原因。在此,医生的认知偏差正受到相对有限的临床经验及未能系统寻找证据的影响。
除此之外,基于规则的思维方式也可能导致偏差。心脏病医生在为急诊患者诊断心脏病时常常出现这种偏差。如图3-1所示,只有对超过40岁的患者,医生才会怀疑其可能是心脏病发作。证据很清楚,正如斯蒂芬·库森(Stephen Coussens)在《离散行为:急诊室中的启发式思维》(Behaving Discretely: Heuristic Thinking in the Emergency Department)一文中所表明的观点:数据中存在明显的不连续性(见图3-1左图),医生往往会认为低于40岁的患者都太年轻,因此不太可能患有致命性心脏病,即使40岁的患者患病风险实际上并不比39岁的患者高多少(见图3-1右图)。这样的想法带来的问题是:在分析患者90天随访数据后,库森发现,许多被误认为太年轻而不可能患有心脏病的人,随后都出现过心脏病发作。14
图3-1 启发式思维对心脏病发作诊断的影响
资料来源:改编自S. Coussens,“Behaving Discretely: Heuristic Thinking in the Emergency Department,”Harvard Scholar(2017)。
医生普遍存在的偏差之一就是过度自信,卡尼曼将其称之为“医学的流行病”。15为了支持这一观点,他开展过一项关于医生对自身诊断自信度的回顾性研究,该研究对尸检确定的死因与医生在患者死亡前做出的诊断进行了比较。“那些对自己的诊断‘完全肯定’的医生,有40%的情况都是错误的。”刘易斯也认同这种偏差:“这个职业好像就是为证明个人决策很明智而设置的。”16在1974年《科学》杂志上的一篇经典论文中,特沃斯基和卡尼曼讨论了面向确定性事物时的偏差,他们列举了人类在处理不确定性的事件时所依赖的不同类型的启发式思维方法。17不幸的是,几乎每种场景都存在证据缺失的情况,医学同样永远存在不确定性;而应对这种不确定性,我们往往会产生对专家意见的依赖,我将其称为“基于权威的医学”。18
这种过度自信可以被归类为确定性偏差,也称为“我方立场偏差”,即倾向于接受支持自身观念的信息,而拒绝与之相悖的信息。19过度自信往往和解释深度的错觉密切相关,尤其是当人们相信自己知道的比实际知道的要多的时候。很明显,无论哪种类型的偏差,人们常常在做出关键决定时丧失理性,包括医生在内。
特沃斯基做的另一项经典实验进一步证明了简单推理的缺失。他针对斯坦福大学的肿瘤科医生开展了一项调查:让肿瘤科医生为晚期癌症患者选择一种手术。当提供的患者信息有90%的存活率时,82%的医生会选择它;但当被描述为有10%的死亡风险时,只有54%的医生会选择这一选项。只要把“生存”和“死亡”这两个词以及相应的百分比调换一下,就会导致选择上的显著变化。
于是,我们知道了很多关于误诊的信息,而其中很大一部分是由于认知偏差造成的。一项针对583例由医生报告的误诊病例的研究发现,误诊最主要的原因是没有第一时间思考诊断问题(见图3-2),这是“第一系统思维”和“可得性偏差”的结果。20诊断失败或延迟是美国医疗事故诉讼中最重要的原因,2017年,这两项占美国医疗事故诉讼的31%。21当受影响的医生被问及如果再次发生这些状况时,他们会采取哪种不同的方法,最常见的回答是他们希望有更好的病历资料,这再次反映了医生会诊时病历记录速度和质量问题的重要性。显然,最重要的是减少误诊的发生,即使我们永远达不到零失误。
图3-2 583例医生报告的病例样本中医疗误诊归因情况
资料来源:改编自L. Landro,“The Key to Reducing Doctors' Misdiagnoses,”Wall Street Journal (2017),主要参考G. Schiff et al.,“Diagnostic Error in Medicine: Analysis of 583 Physician-Reported Errors,”Arch Intern Med(2009): 169(20), 1881-1887。
无论是浅度医疗还是快速医疗,它们本身都面临较为严峻的问题,因此,两者都需要予以解决。即使医生对患者有深入的了解,也能收集全面的数据(通常非常罕见),思维缺陷及经验不足也将影响医生的诊疗。日积月累,医生从成百上千的患者诊疗过程中积累了经验,而这些经验正是医生“第一系统思维”的基础。但正如我已提到的,目前还没有哪种机制能为医生定期提供反馈,告诉他们做得正确与否。虽然每位医生都要花数十载来积累这些经验,但实际上这些经验依然非常有限。说得再极端一些,那些接诊过成千上万名患者的医生,与大样本统计能汇总的医生数据比起来,个体医生所能积累的经验仍然少之又少。
接下来,我来谈一谈计算机的使用。