Эхбари
Thursday, 19 February 2026
Breaking

Реальные медицинские вопросы ставят в тупик ИИ-чат-боты

Современные ИИ-чат-боты демонстрируют значительное падение п

Реальные медицинские вопросы ставят в тупик ИИ-чат-боты
7DAYES
4 hours ago
3

США - Информационное агентство Эхбари

ИИ-чат-боты не справляются с реальными медицинскими консультациями, показало исследование Оксфорда

Современные чат-боты на базе искусственного интеллекта (ИИ), демонстрируя впечатляющую точность в контролируемых лабораторных условиях, значительно уступают в эффективности при ответе на реальные медицинские вопросы, задаваемые людьми. Новое исследование, опубликованное 9 февраля в авторитетном журнале Nature Medicine, предполагает, что эти передовые ИИ-системы часто работают хуже, чем простые интернет-поисковики, когда люди ищут помощи по медицинским проблемам.

Исследование, проведенное командой Лаборатории анализа машин (Reasoning with Machines Lab) Оксфордского университета, выявило резкий контраст между потенциалом ИИ и его практической производительностью. В лабораторных условиях ИИ-чат-боты могли выявлять медицинские проблемы с поразительной точностью в 95% и правильно рекомендовать соответствующие действия, такие как обращение за неотложной помощью или консультация с врачом, в более чем 56% случаев. Эти цифры изначально указывали на появление мощного инструмента для предварительной медицинской оценки.

Однако, когда те же модели ИИ были представлены с медицинскими сценариями через разговорное взаимодействие с почти 1300 добровольцами, результаты оказались значительно менее впечатляющими. Точность диагностики упала ниже 35%, а способность определить правильный курс действий снизилась примерно до 44%. Это существенное снижение подчеркивает критический разрыв между обширными возможностями ИИ по обработке данных и его способностью ориентироваться в тонкостях человеческого общения и сложных медицинских ситуациях.

Адам Махди, математик, возглавляющий исследование, сформулировал основную проблему: «У ИИ есть медицинские знания, но людям трудно получить от него полезные советы». Он пояснил, что проблема заключается не в недостатке медицинских знаний у моделей больших языков (LLM), а в способе взаимодействия пользователей с этими сложными системами. В исследовании тестировались ведущие модели, включая GPT-4o, Command R+ и Llama 3.

Для дальнейшего изучения исследователи сравнили производительность ИИ-чат-ботов с традиционными методами. Добровольцы были случайным образом распределены для использования либо LLM, либо других методов, таких как поиск в Google, для оценки медицинских сценариев. Важно отметить, что участники, полагавшиеся на поисковые системы, такие как Google, были более успешны в диагностике проблемы, достигнув более 40% точности по сравнению со средними 35% точности у пользователей чат-ботов. Махди подчеркнул, что эта разница статистически значима, предполагая, что «Доктор Гугл» может быть более надежным источником для первоначального медицинского руководства, чем современные ИИ-чат-боты.

Исследование предполагает, что ИИ-чат-боты действительно были передовыми на момент проведения исследования (конец 2024 года), что затрудняет улучшение их базовых медицинских знаний. Основным выявленным препятствием стало само взаимодействие человека и ИИ. Пользователи часто предоставляют информацию поэтапно, а не представляют полную картину сразу, что может легко отвлечь или сбить с толку ИИ нерелевантными деталями.

Кроме того, исследование выявило, что незначительные изменения в описании симптомов пользователями могли кардинально изменить ответ ИИ. В одном ярком примере, касающемся субарахноидального кровоизлияния, потенциально смертельного типа инсульта, описание одним добровольцем «внезапно развившейся сильнейшей головной боли» побудило GPT-4o правильно рекомендовать немедленную медицинскую помощь. Напротив, другой доброволец, описавший «ужасную головную боль», получил рекомендацию о мигрени с советом отдохнуть в темной комнате – потенциально смертельный ошибочный диагноз.

Причины таких резких изменений в ответах ИИ, основанных на незначительных лингвистических вариациях, остаются неясными и подпадают под категорию «проблемы черного ящика» ИИ, когда даже разработчики не могут полностью отследить процесс рассуждения модели. Эта непредсказуемость вызывает серьезные опасения относительно безопасности и надежности развертывания этих инструментов в прямой работе с пациентами.

Вывод исследования о том, что «ни одна из протестированных языковых моделей не была готова к внедрению в прямую работу с пациентами», совпадает с более широкими опасениями в секторе медицинских технологий. В отчете, опубликованном в январе организацией ECRI, глобальной некоммерческой организацией по безопасности пациентов, использование ИИ-чат-ботов в медицине было названо главным риском в области медицинских технологий на 2026 год. В отчете упоминались случаи, когда ИИ уверенно ставил ошибочные диагнозы, выдумывал анатомические части, рекомендовал опасные процедуры и увековечивал предвзятости, усугубляющие неравенство в области здравоохранения.

Несмотря на эти риски, интеграция ИИ в здравоохранение ускоряется. Врачи все чаще используют чат-боты для таких задач, как расшифровка записей и анализ результатов тестов. OpenAI и Anthropic выпустили специализированные медицинские версии своих флагманских продуктов, при этом ChatGPT, по сообщениям, обрабатывает более 40 миллионов медицинских запросов ежедневно. Скотт Лукас, вице-президент ECRI по безопасности устройств, признал привлекательность ИИ: «Они могут получить доступ к миллиардам точек данных... и представить их в удобоваримом, заслуживающем доверия, убедительном формате, который может дать вам точный совет». Однако он предостерег: «коммерческие LLM не готовы для использования в клинической практике. Полагаться исключительно на выходные данные LLM небезопасно».

В будущем эксперты ожидают, что и модели ИИ, и уровень владения пользователями будут развиваться, потенциально преодолевая коммуникационный разрыв, выявленный исследованием Оксфорда. Исследователи, такие как Мишель Ли, специалист по медицинскому ИИ из Гарвардской медицинской школы, активно работают над повышением надежности ИИ с помощью улучшенных стратегий обучения, тестирования и внедрения. Сам Махди планирует дальнейшие исследования на разных языках и в течение длительного времени, чтобы помочь разработчикам ИИ создавать более надежных и заслуживающих доверия медицинских ИИ-ассистентов. «Первый шаг — решить проблему измерения», — заявил Махди. «Мы не измеряли то, что действительно имеет значение» — а именно, как ИИ ведет себя в сложном, непредсказуемом ландшафте реального человеческого взаимодействия.

Ключевые слова: # ИИ чат-боты # медицинские консультации # медицинские технологии # точность диагностики # взаимодействие человека и ИИ # LLM # Nature Medicine # исследование Оксфорда # безопасность ИИ # клиническое применение