伊赫巴里
Saturday, 04 April 2026
Breaking

现实世界医疗问题令AI聊天机器人困惑

最新研究发现,尖端人工智能聊天机器人在真实用户寻求医疗建议时表现出显著下降,凸显了沟通差距。

现实世界医疗问题令AI聊天机器人困惑
7DAYES
1 month ago
112

美国 - 艾赫巴里通讯社

AI聊天机器人在现实世界场景中显现医疗知识短板

根据一项突破性研究,被誉为医疗领域潜在革命性工具的尖端人工智能(AI)聊天机器人,在现实世界医疗咨询场景中部署时,暴露出明显的不足。包括GPT-4o、Command R+和Llama 3在内的大型语言模型(LLM)等先进系统,在受控的实验室环境中表现出惊人的准确性,但当普通民众在面对健康问题时寻求其帮助时,其性能却显著下降。

这项于2月9日在著名的《自然医学》杂志上发表的研究,揭示了一个关键的差异。在实验室测试中,人工智能聊天机器人能够以高达95%的准确率识别医疗问题,并能在超过56%的时间里建议诸如立即就医等适当行动。然而,当近1300名研究志愿者以对话方式向这些聊天机器人提出医疗场景时,准确率急剧下降。诊断具体病症的准确率降至35%以下,而推荐正确行动方案的准确率仅为约44%。

该研究的负责人、牛津大学“机器推理实验室”(Reasoning with Machines Lab)的数学家亚当·马赫迪(Adam Mahdi)阐述了核心发现:“人工智能拥有医学知识,但人们很难从中提取有用的建议。”这表明问题不仅在于人工智能的知识库,更在于复杂而敏感的医疗领域中,人与人工智能交互的动态过程。研究暗示,尽管人工智能可能“书本上很聪明”,但在实时医疗咨询中的实际应用远非完美。

为了严格评估人工智能的能力,马赫迪及其同事首先通过提供描述10种不同医疗状况的场景,在实验室环境中测试了聊天机器人的诊断准确性。随后,研究将近1300名志愿者随机分组。其中一半被指派使用这些LLM之一来评估其场景,而另一半则使用了替代方法。至关重要的是,大多数未使用聊天机器人的参与者求助于Google等搜索引擎。结果非常鲜明:使用聊天机器人的参与者不仅表现不如聊天机器人自身的实验室评估,而且比那些依赖传统搜索工具的人表现更差。

特别是,那些使用Google搜索症状的人,在超过40%的情况下获得了正确的诊断,这显著优于使用AI聊天机器人的用户所达到的平均35%的准确率。马赫迪强调,这一差异具有统计学意义,表明对于许多寻求初步医疗指导的个人而言,广泛可及的“谷歌医生”在许多情况下仍然比当前的对话式人工智能更可靠。

研究中使用的AI模型在2024年末被认为是顶尖技术,这使得对其核心医学知识的进一步改进变得困难。“问题在于与人互动,”马赫迪说。在某些情况下,聊天机器人提供了错误、不完整或误导性的信息。然而,主要问题似乎在于用户与LLM互动的方式。人们倾向于逐步提供信息,一次提供一点细节,而不是一次性提供一个全面的概述。人工智能聊天机器人很容易被不相关或部分信息分散注意力,导致输出错误。此外,参与者有时会忽略聊天机器人提供的正确诊断,这表明缺乏信任或理解。

研究还揭示了微妙措辞对AI响应的深远影响。例如,在描述一种危及生命的脑出血类型——蛛网膜下腔出血时,两名参与者向GPT-4o描述了相似的症状(头痛、畏光、颈部僵硬)。一名志愿者将发作描述为“突然的、有史以来最严重的头痛”,促使人工智能正确建议立即就医。相比之下,另一名志愿者将其描述为“可怕的头痛”。这种不太紧急的措辞导致GPT-4o建议是偏头痛,并建议在黑暗的房间里休息——在脑出血的情况下,这可能是一个致命的误诊。

基于微小的语言差异导致AI响应发生如此剧烈变化的原因仍然不清楚,这加剧了许多AI模型固有的“黑箱”问题,即连其创造者也无法完全追踪其推理过程。研究作者得出结论:“没有一个被测试的语言模型已准备好部署到直接的患者护理中。”

其他卫生技术安全组织也呼应了这一结论。全球非营利性患者安全组织ECRI在1月21日发布的一份报告中,将医疗领域AI聊天机器人的使用列为2026年最重大的健康技术危害。该报告引用了AI聊天机器人自信地提出错误诊断、编造身体部位、推荐危险的医疗产品或程序,以及可能通过有偏见的输出加剧健康不平等现象的例子。此前的研究也强调了在治疗环境中使用的聊天机器人所犯的伦理错误。

尽管存在这些担忧,许多医生已经在工作流程中整合AI聊天机器人,用于转录病历和审查测试结果等任务。大型科技公司已推出专门的医疗AI产品,仅ChatGPT每天就处理超过4000万个医疗查询。这些工具的吸引力在于它们能够处理海量数据,并以易于理解、自信的方式呈现信息。然而,专家警告说,“商业LLM并未为黄金时段的临床使用做好准备。仅仅依赖LLM的输出是不安全的。”

展望未来,研究人员预计,人工智能模型和用户都将不断发展,有望弥合马赫迪研究中发现的沟通差距。这些研究结果证实了机器学习界长期以来对LLM在患者护理中的安全性和可靠性的担忧。目前的研究旨在改进AI模型的培训、测试和实施,以提高它们在各种医疗环境中的可靠性。

马赫迪计划进行更多涉及多种语言和更长时间跨度的AI互动研究。“第一步是解决测量问题,”他说。“我们没有衡量真正重要的事情”——即人工智能在关键时刻对真实人类的实际表现。

标签: # 人工智能聊天机器人 # 医疗建议 # 医疗人工智能 # 诊断准确性 # 用户交互 # 大型语言模型 # 自然医学研究 # 牛津大学 # 患者安全 # 人工智能局限性