AI新冠检测可能存在误诊,智能医疗离我们还有多远?

智东西(公众号:zhidxcom)
编译 | 孙悦
编辑 | 李水青

智东西6月2日消息,近日,一篇发表在《自然》子刊《自然机器智能》的论文指出,华盛顿大学的研究人员对人工智能(AI)检测新冠病毒模型研究发现,这些模型存在不稳定性,可能会导致诊断失误的现象。

关于误诊的原因,研究人员认为,主要是大部分模型只是依靠数据的分析和对于患者的胸片标注特征等数据,对患者是否感染新冠病毒进行判断,而不是根据真正的医学病理去诊断、分析。

AI新冠检测可能存在误诊,智能医疗离我们还有多远?

论文题目为《用于射线照相COVID-19检测的AI选择信号上的捷径方式 (AI for radiographic COVID-19 detection selects shortcuts over signal)》。

论文链接:https://www.nature.com/articles/s42256-021-00338-7

一、AI提高诊疗速度,但模型缺乏透明度

人工智能在医疗行业的应用,提升了医疗诊断的速度和准确率,同时也为患者赢得了最佳救治时间。从最开始的就诊、个性化治疗,再到手术的成功率预测,人工智能都将成为未来患者看病就医过程中不可或缺的一部分。

正如华盛顿大学的研究人员发现的那样,人工智能虽然可以降低医生就诊压力,为患者看病提供便捷快速的方式。但如果将其部署在临床环境中,那么这种利用人工智能带来的“捷径学习”方式(Shortcut learning)可能会导致出现诊断的失误。

正在攻读博士学位的论文作者Paul G博士指出:“医生通常会从X射线的图像中分析、总结疾病发展过程的特定模式。同时,这也是华盛顿大学,艾伦计算机科学与工程学院医学研究方向学生需要学习的一种分析诊断方式。但这不是指依赖于捷径学习的分析系统,因为它可能会导致错误诊断的出现。例如,捷径学习的系统可能会因为患者是老年人,从而推断他们患有某些疾病,而这仅仅是因为这种疾病在老年患者中比较常见。其实,使用这种‘捷径’的诊断方式本身没有错,但它所诊断的结果准确率是无法保证的。”

研究团队指出,这种捷径学习目前还处于研发初期,还没有成为一名权威的专业医生,所以不会将其推广。同时,团队成员DeGrave说:“这种捷径学习的模型只能用于开发它的医院,如果把它应用到其它医院时,将会出现诊断失误的现象。”

这项捷径学习的模型缺乏透明度,被专注于医学和科学领域的研究人员们视为人工智能的“黑匣子”。具体而言,该模型在经过了海量数据的训练之后,并没有人知道它是如何推导出诊断结果的。

二、AI模型不稳定,二次测试准确性减半

最近,研究团队把这个模型用于新冠病毒的识别上。但由于缺乏对新冠的训练数据,这些模型容易出现一种被称为“最坏情况混淆(worst-case confounding)”的诊断结果。它是指因为受到多种因素的干扰后,而产生的混淆判断。这种情况表明模型相对于基本医学病理,更加依赖于捷径学习。

另一位来自艾伦学院的论文作者Joseph Janizek说:“人工智能只是进行数据识别判定分析,而不是真正的经过了疾病病理的学习。当所有新冠病毒阳性病例来自一个数据集,而所有阴性病例都来自另一个数据集时,就容易产生误诊的情况。虽然研究人员已经提出了一些相应的解决方案来减少误诊,但在样本数据不够全的情况下,这些方法的作用几乎微乎其微。”

研究团队对发表论文中的方法进行了实验。首先,他们测试了模型的初始性能。然后,研究人员通过外部数据对模型进行了二次测试,而这些数据来自新的医院系统。

虽然模型在首次测试时保持了高性能,但在第二次测试中,它们的准确性降低了一半。研究人员对其的解释是这存在着一个“泛化差距(generalization gap)”,同时它也有利地证明了混淆因素是模型在初始数据测试上成功的原因。然后,研究团队利用人工智能技术,生成对抗网络和显著性地图,以明确哪些图像特征在模型中的关键判定信息。

接着,研究人员根据第二次的外部数据对模型进行了训练,其中包含了类似来源的阳性和阴性新冠病毒病例,因此它被认为不那么容易混淆。但即使如此,测试结果也显示性能呈下降趋势。

这些测试结果都与传统认知不同,但当数据来源相似时,混淆结果就没那么严重。实验结果极大地表明了高性能医疗人工智能系统可以利用捷径学习的模型来协同工作。

三、AI新冠检测尚未临床,日后扩大样本是关键

“我们团队很看好人工智能在医学影像方面的临床应用。我相信最终会有合理的方法来防止人工智能出现机械化的学习捷径,虽然这还需要一些时间,但如果一旦成功,人工智能便可使这些模型能够安全有效地,成为增强医疗决策并为患者预测治疗结果的重要工具。”艾伦学院教授、资深作家Su-In Lee说。

DeGrave说:“这项研究发现人工智能会导致误诊,这很令人感到担忧,但这项模型不太可能在临床环境中广泛部署,也是值得庆幸的。虽然有证据表明,一个名为‘COVID-Net’的错误模型已经在多家医院部署,但目前还不清楚它是用于临床还是仅用于研究。关于这些模型在哪以及它们是如何部署的,我们不得而知,但可以确定的是他们临床应用率很低或不存在的。大多数时候,医院都是通过测试PCR来诊断新冠病毒,而不是只依靠患者胸部的X光片。医院有对患者有医治的责任,所以他们不会轻易地相信那些未经测试的人工智能系统。”

研究团队成员Janizek说:“这些人工智能的应用一定要经过多次反复检测,确保没有任何问题后,才能用于临床使用,为患者的生命安全做保障。我们的发现表明,人工智能技术在医疗方面的应用必须严格按要求进行实验测试,这一点非常重要。如果只是根据几张X射线图,就对其技术进行评判,那不具有代表性,必须通过大量的图像数据,经过反复测试,才能看出可能存在的隐藏问题。为了利用人工智能更好地帮助研究人员规避新冠病毒模型中发现的一些陷阱,我们需要使用更大规模的样本进行测试,优化模型系统。”

最后,研究团队已经证明了其它人工智能在成像以外的一系列医疗应用中的价值,包括评估患者的手术成功几率,以及针对不同患者对癌症的治疗情况分析等。

结语:智慧医疗,正成为人工智能时代重头戏

从技术、医生和患者的角度来看,智能医疗前景广阔,或将成为未来发展的一大趋势。但在其大规模普及化的前提下,研发人员必须克服人工智能机械化的捷径学习模式、扩大实验的样本容量、完善模型架构等多重问题,保障人们的生命安全。

相信当这些问题都被解决之后,智能医疗将发挥其最大价值,缓解医生就诊压力,提高患者就医效率,做到患病治疗快、准、好。