传统的诊断决策支持系统优于诊断疾病的生成AI
        几十年来,医疗专业人员一直在使用人工智能 (AI) 来简化诊断,使用所谓的诊断决策支持系统 (DDSS)。 麻省总医院 (MGH) 是麻省总医院布莱根医疗保健系统的创始成员,其计算机科学家于 1984 年首次开发了 MGH 自己的 DDSS,称为 DXplain,它依靠数千种疾病概况、临床发现和数据点来生成和排序潜在的诊断,供临床医生使用。随着生成式 AI 和大型语言模型 (LLM) 在医学领域的普及和可访问性增加,麻省总医院计算机科学实验室 (LCS) 的研究人员试图将 DXplain 的诊断能力(在过去四十年中不断发展)与流行的 LLM 进行比较。

         他们的新研究比较了 ChatGPT、Gemini 和 DXplain 在诊断患者病例方面的表现,结果表明 DXplain 的表现要好一些,但 LLM 也表现良好。 研究人员设想将 DXplain 与 LLM 配对作为最佳前进方式,因为它将改进这两个系统并提高它们的临床疗效。 结果发表在 JAMA Network Open 上。

         “在对大型语言模型的所有兴趣中,很容易忘记第一个成功用于医学的 AI 系统是像 DXplain 这样的专家系统,”MGH LCS 的合著者 Edward Hoffer 医学博士说。

         “这些系统可以增强和扩展临床医生的诊断,回忆医生可能提供的信息在一时冲动中忘记,并且不会因人类推理中的常见缺陷而产生偏见。 现在,我们认为将现有诊断系统的强大解释能力与大型语言模型的语言能力相结合,将能够实现更好的自动化诊断决策支持和患者结果,“同样来自 MGH LCS 的通讯作者 Mitchell Feldman 医学博士说。

         研究人员使用 36 名患者测试了 DXplain、ChatGPT 和 Gemini 的诊断能力跨越种族、民族、年龄和性别类别的案件。 对于每个病例,系统都有机会在有和没有实验室数据的情况下建议潜在的病例诊断。 根据实验室数据,所有三个系统大多数时候都列出了正确的诊断:DXplain 为 72%,ChatGPT 为 64%,Gemini 为 58%。 在没有实验室数据的情况下,DXplain 列出了 56% 的正确诊断,优于 ChatGPT (42%) 和 Gemini (39%),尽管结果没有统计学意义。

         研究人员观察到 DDSS 和 LLM 发现了其他方法遗漏的某些疾病,这表明结合这些方法可能有希望。 基于这些发现的初步工作表明,LLM 可用于从叙述文本中提取临床发现,然后将其插入 DDSS 中——进而协同改进系统及其诊断结论。