现实世界医疗问题令AI聊天机器人困惑

美国 - 艾赫巴里通讯社

AI聊天机器人在现实世界场景中显现医疗知识短板

根据一项突破性研究，被誉为医疗领域潜在革命性工具的尖端人工智能（AI）聊天机器人，在现实世界医疗咨询场景中部署时，暴露出明显的不足。包括GPT-4o、Command R+和Llama 3在内的大型语言模型（LLM）等先进系统，在受控的实验室环境中表现出惊人的准确性，但当普通民众在面对健康问题时寻求其帮助时，其性能却显著下降。

这项于2月9日在著名的《自然医学》杂志上发表的研究，揭示了一个关键的差异。在实验室测试中，人工智能聊天机器人能够以高达95%的准确率识别医疗问题，并能在超过56%的时间里建议诸如立即就医等适当行动。然而，当近1300名研究志愿者以对话方式向这些聊天机器人提出医疗场景时，准确率急剧下降。诊断具体病症的准确率降至35%以下，而推荐正确行动方案的准确率仅为约44%。

另请阅读

该研究的负责人、牛津大学“机器推理实验室”（Reasoning with Machines Lab）的数学家亚当·马赫迪（Adam Mahdi）阐述了核心发现：“人工智能拥有医学知识，但人们很难从中提取有用的建议。”这表明问题不仅在于人工智能的知识库，更在于复杂而敏感的医疗领域中，人与人工智能交互的动态过程。研究暗示，尽管人工智能可能“书本上很聪明”，但在实时医疗咨询中的实际应用远非完美。

为了严格评估人工智能的能力，马赫迪及其同事首先通过提供描述10种不同医疗状况的场景，在实验室环境中测试了聊天机器人的诊断准确性。随后，研究将近1300名志愿者随机分组。其中一半被指派使用这些LLM之一来评估其场景，而另一半则使用了替代方法。至关重要的是，大多数未使用聊天机器人的参与者求助于Google等搜索引擎。结果非常鲜明：使用聊天机器人的参与者不仅表现不如聊天机器人自身的实验室评估，而且比那些依赖传统搜索工具的人表现更差。

特别是，那些使用Google搜索症状的人，在超过40%的情况下获得了正确的诊断，这显著优于使用AI聊天机器人的用户所达到的平均35%的准确率。马赫迪强调，这一差异具有统计学意义，表明对于许多寻求初步医疗指导的个人而言，广泛可及的“谷歌医生”在许多情况下仍然比当前的对话式人工智能更可靠。

研究中使用的AI模型在2024年末被认为是顶尖技术，这使得对其核心医学知识的进一步改进变得困难。“问题在于与人互动，”马赫迪说。在某些情况下，聊天机器人提供了错误、不完整或误导性的信息。然而，主要问题似乎在于用户与LLM互动的方式。人们倾向于逐步提供信息，一次提供一点细节，而不是一次性提供一个全面的概述。人工智能聊天机器人很容易被不相关或部分信息分散注意力，导致输出错误。此外，参与者有时会忽略聊天机器人提供的正确诊断，这表明缺乏信任或理解。

研究还揭示了微妙措辞对AI响应的深远影响。例如，在描述一种危及生命的脑出血类型——蛛网膜下腔出血时，两名参与者向GPT-4o描述了相似的症状（头痛、畏光、颈部僵硬）。一名志愿者将发作描述为“突然的、有史以来最严重的头痛”，促使人工智能正确建议立即就医。相比之下，另一名志愿者将其描述为“可怕的头痛”。这种不太紧急的措辞导致GPT-4o建议是偏头痛，并建议在黑暗的房间里休息——在脑出血的情况下，这可能是一个致命的误诊。

基于微小的语言差异导致AI响应发生如此剧烈变化的原因仍然不清楚，这加剧了许多AI模型固有的“黑箱”问题，即连其创造者也无法完全追踪其推理过程。研究作者得出结论：“没有一个被测试的语言模型已准备好部署到直接的患者护理中。”

其他卫生技术安全组织也呼应了这一结论。全球非营利性患者安全组织ECRI在1月21日发布的一份报告中，将医疗领域AI聊天机器人的使用列为2026年最重大的健康技术危害。该报告引用了AI聊天机器人自信地提出错误诊断、编造身体部位、推荐危险的医疗产品或程序，以及可能通过有偏见的输出加剧健康不平等现象的例子。此前的研究也强调了在治疗环境中使用的聊天机器人所犯的伦理错误。

尽管存在这些担忧，许多医生已经在工作流程中整合AI聊天机器人，用于转录病历和审查测试结果等任务。大型科技公司已推出专门的医疗AI产品，仅ChatGPT每天就处理超过4000万个医疗查询。这些工具的吸引力在于它们能够处理海量数据，并以易于理解、自信的方式呈现信息。然而，专家警告说，“商业LLM并未为黄金时段的临床使用做好准备。仅仅依赖LLM的输出是不安全的。”

现实世界医疗问题令AI聊天机器人困惑

最新研究发现，尖端人工智能聊天机器人在真实用户寻求医疗建议时表现出显著下降，凸显了沟通差距。

AI聊天机器人在现实世界场景中显现医疗知识短板

另请阅读

相关新闻

相关新闻

这种“可食用”塑料袋替代品有望拯救奈良的“神鹿”

拯救斯里兰卡豹子的斗争：直面栖息地丧失和保护挑战

野生动物重返福岛：禁区内生态复原力的十年

中国发布620公里/小时的磁悬浮列车原型，突破速度极限

搜索

最新消息

“我们成了轻易的目标”：女政客们面临网络辱骂的洪流，但她们表示不会停止工作

埃塞俄比亚：提格雷冲突的深度解析与最新动态

卢旺达大屠杀头号通缉犯在南非被捕，潜逃数十年终落网

'我们是人类'：P-Square 谈论他们的解散、重聚以及新专辑的制作

当西方涌向电动汽车时，这些被淘汰的燃油车去向何方

尼日利亚：非洲巨人的动态全景

加沙地带陷入更深的人道主义灾难：亟需全球紧急干预

2024世界防务展：沙特阿拉伯巩固其在军事工业和国防本地化领域的领导地位

全球经济展望：在地缘政治变局和通胀压力下驾驭不确定性

全球领导人齐聚应对气候危机和地缘政治变化中的经济复苏

全球经济在通胀压力和地缘政治波动中面临显著下行

地缘政治紧张局势和需求反弹导致全球油价飙升

阅读最多