Les chatbots IA en difficulté face aux questions médicales réelles, soulevant des inquiétudes pour la sécurité des patients

Global - Agence de presse Ekhbary

Les chatbots IA en difficulté face aux questions médicales réelles, soulevant des inquiétudes pour la sécurité des patients

Les chatbots d'intelligence artificielle (IA) de pointe, malgré leurs capacités impressionnantes dans des environnements contrôlés, ne parviennent pas à fournir des conseils médicaux précis et sûrs lorsqu'ils sont confrontés aux complexités de l'interaction humaine dans le monde réel. Une étude récente publiée dans Nature Medicine révèle une baisse significative de la précision diagnostique et des actions recommandées lorsque des personnes ordinaires s'engagent avec ces grands modèles linguistiques (LLM) pour obtenir une assistance médicale, soulignant des préoccupations critiques en matière de sécurité pour les applications de santé numérique.

Les conclusions, dirigées par le mathématicien Adam Mahdi du laboratoire de raisonnement avec les machines de l'Université d'Oxford, mettent en évidence un contraste frappant entre les performances de l'IA en laboratoire et son utilité pratique. Lors des tests en laboratoire contrôlés, des LLM avancés tels que GPT-4o, Command R+ et Llama 3 ont démontré une compétence remarquable, identifiant les problèmes médicaux avec une précision de 95 % et recommandant des actions appropriées, comme consulter un médecin ou se rendre aux urgences, dans plus de 56 % des cas. Cependant, lorsque près de 1 300 volontaires ont présenté des scénarios médicaux de manière conversationnelle, la précision des chatbots a chuté à moins de 35 % pour le diagnostic et à environ 44 % pour suggérer la bonne ligne de conduite. Cette performance était non seulement inférieure aux résultats de laboratoire, mais aussi à de simples recherches Google, où les participants atteignaient plus de 40 % de précision.

Lire aussi

Mahdi souligne que le problème n'est pas un manque de connaissances médicales au sein des modèles d'IA, qui étaient à la pointe de la technologie fin 2024, lorsque l'étude a été menée. « L'IA possède les connaissances médicales, mais les gens ont du mal à en tirer des conseils utiles », explique-t-il. Le problème fondamental réside dans l'interaction homme-IA. Les utilisateurs fournissent souvent des informations fragmentées plutôt qu'un récit complet, et les chatbots sont sujets à la distraction par des détails non pertinents ou partiels. Cet écart de communication peut conduire à des conseils dangereusement inexacts, comme l'illustre un exemple effrayant de l'étude.

Deux volontaires ont décrit les symptômes d'une hémorragie sous-arachnoïdienne, un type grave d'AVC. Un participant, utilisant l'expression « j'ai soudainement eu le pire mal de tête de ma vie », a incité GPT-4o à conseiller correctement une attention médicale immédiate. En revanche, un autre volontaire décrivant un « terrible mal de tête » a reçu une recommandation de repos dans une pièce sombre et calme, un diagnostic erroné potentiellement fatal. Les raisons sous-jacentes de ces changements dramatiques de réponse dus à des phrasés subtils restent floues, une manifestation du « problème de la boîte noire » de l'IA où même les créateurs ne peuvent pas entièrement retracer le raisonnement d'un modèle.

Ces conclusions rejoignent les avertissements plus larges des organisations de sécurité des patients. L'organisation mondiale à but non lucratif ECRI, dans son rapport du 21 janvier, a identifié l'utilisation des chatbots IA en médecine comme le danger technologique de santé le plus important pour 2026. Les préoccupations de l'ECRI incluent les modèles d'IA suggérant avec confiance des diagnostics erronés, fabriquant des parties du corps, recommandant des produits ou des procédures dangereuses, conseillant des tests inutiles et exacerbant les disparités de santé par des résultats biaisés. Les implications éthiques s'étendent à l'IA agissant comme thérapeute, où des études ont montré que les chatbots commettaient des erreurs critiques.

Malgré ces limitations critiques, l'intégration de l'IA dans les soins de santé s'accélère. Scott Lucas, vice-président de l'ECRI pour la sécurité des appareils, note que la plupart des médecins utilisent déjà des chatbots pour des tâches telles que la transcription de dossiers médicaux ou l'examen des résultats de tests. Les principaux développeurs d'IA se lancent également dans le domaine médical, OpenAI ayant lancé ChatGPT pour les soins de santé et Anthropic ayant introduit Claude pour les soins de santé en janvier. ChatGPT gère à lui seul plus de 40 millions de questions de santé par jour, démontrant la dépendance significative du public à l'égard de ces outils.

Lucas reconnaît l'attrait des chatbots IA : « Ils peuvent accéder à des milliards de points de données et agréger des données et les présenter dans un format digeste, crédible et convaincant qui peut vous donner des conseils précis sur la question que vous posiez et le faire avec confiance. » Cependant, il lance un avertissement sévère : « les LLM commerciaux ne sont pas prêts pour une utilisation clinique de premier ordre. Se fier uniquement à la sortie du LLM n'est pas sûr. »

Combler cet écart de communication nécessitera des avancées des deux côtés. Michelle Li, chercheuse en IA médicale à la Harvard Medical School, souligne que l'étude confirme les préoccupations de longue date au sein de la communauté de l'apprentissage automatique concernant la sécurité et la fiabilité des LLM dans les soins aux patients. Ses propres recherches, publiées le 3 février dans Nature Medicine, proposent des améliorations dans la formation, les tests et la mise en œuvre des modèles d'IA pour améliorer la fiabilité dans divers contextes médicaux.

Actualités connexes

Pour l'avenir, Mahdi prévoit d'autres études sur les interactions de l'IA dans diverses langues et au fil du temps, dans le but de fournir aux développeurs des informations pour concevoir des modèles plus robustes capables de fournir des réponses précises et fiables à de vraies personnes. Le défi fondamental, conclut-il, est de « résoudre le problème de la mesure » en se concentrant sur la façon dont l'IA fonctionne réellement dans des scénarios centrés sur l'humain, plutôt que simplement dans des environnements de laboratoire contrôlés. D'ici là, la promesse de l'IA dans les soins directs aux patients reste une entreprise prudente, exigeant un développement rigoureux et des directives claires pour assurer la sécurité des patients.

Agence de presse Ekhbary

Les chatbots IA en difficulté face aux questions médicales réelles, soulevant des inquiétudes pour la sécurité des patients

Une nouvelle étude révèle une baisse significative de la pré