ChatGPT échoue comme outil d'autodiagnostic médical selon une étude d'Oxford
ChatGPT échoue comme outil d'autodiagnostic selon Oxford

ChatGPT échoue comme outil d'autodiagnostic médical selon une étude scientifique d'Oxford

Chaque jour, 40 millions d'utilisateurs réguliers de l'agent conversationnel ChatGPT l'interrogent sur des questions de santé, selon les déclarations d'OpenAI faites en janvier. Cette pratique massive soulève une question cruciale : peut-on réellement faire confiance à cet outil d'intelligence artificielle pour s'autodiagnostiquer une pathologie ? La réponse, selon une étude scientifique publiée le 9 février dans la prestigieuse revue Nature Medicine, est probablement négative.

Une méthodologie rigoureuse impliquant 1 300 participants britanniques

L'étude intitulée « Reliability of LLMs as Medical Assistants for the General Public » (Fiabilité des grands modèles de langage en tant qu'assistants médicaux grand public) a été dirigée par Andrew M. Bean, chercheur en évaluation des systèmes intelligents à l'université d'Oxford. Avec l'aide de trois médecins, l'équipe de recherche a développé dix scénarios de pathologies qu'elle a soumis à un échantillon représentatif de la population britannique composé de près de 1 300 participants.

Ces volontaires devaient interroger ChatGPT comme s'ils souffraient réellement des symptômes décrits. Après des échanges aussi longs qu'ils le souhaitaient avec le chatbot, ces patients imaginaires n'aboutissaient au bon diagnostic que dans environ 37% des cas. Ce résultat contraste fortement avec les performances obtenues lorsque les mêmes participants utilisaient leurs méthodes habituelles de recherche en ligne sans intelligence artificielle.

Les méthodes traditionnelles surpassent l'IA dans l'autodiagnostic

Lorsque les participants recouraient à leurs habitudes de recherche médicale en ligne, le taux de diagnostic correct dépassait la barre des 45%. L'étude précise que la plupart « utilisaient un moteur de recherche classique ou consultaient directement des sites de confiance, comme celui du NHS » (le National Health Service, le système de santé public du Royaume-Uni).

Cette différence significative de performance souligne les limites actuelles de l'intelligence artificielle comme outil d'autodiagnostic lorsqu'elle est manipulée par des non-professionnels de santé. Pourtant, les capacités techniques des modèles de langage existent bel et bien, comme le démontre la suite de l'expérience.

L'IA excelle lorsque les symptômes sont présentés directement par des médecins

Dans une configuration différente, lorsque les chercheurs ont soumis directement à ChatGPT la liste des symptômes cliniques rédigés par les médecins (sans passer par l'intermédiaire d'un patient fictif), les résultats ont été radicalement différents. Dans ces conditions, l'agent conversationnel identifiait correctement la maladie dans environ 95% des cas.

Les performances des autres intelligences artificielles testées dans le cadre de cette étude étaient comparables :

  • 99% de réussite pour LLama 3, le modèle développé par Meta
  • 91% de réussite pour Command R+, créé par Cohere

Ces chiffres impressionnants démontrent que la technologie elle-même n'est pas en cause, mais plutôt son utilisation par le grand public.

Le maillon faible identifié : l'humain et ses biais de communication

Les auteurs de l'étude avancent plusieurs explications à cette divergence de performance. Premièrement, de nombreux participants ne fournissaient pas au chatbot toutes les informations médicales disponibles. Deuxièmement, lorsque l'intelligence artificielle suggérait plusieurs maladies possibles, les utilisateurs ne choisissaient pas nécessairement la bonne hypothèse.

Les chercheurs pointent également la tendance des participants à interroger l'IA de manière fermée, par exemple en posant des questions comme : « Cela pourrait-il avoir un lien avec le stress ? » Cette approche restrictive a pour effet de limiter le champ des réponses potentielles de l'intelligence artificielle, réduisant ainsi son efficacité diagnostique.

Cette étude met en lumière les défis importants qui subsistent dans l'intégration des outils d'intelligence artificielle dans le domaine de la santé grand public. Elle souligne la nécessité de développer des interfaces plus intuitives et des protocoles d'utilisation mieux adaptés aux besoins réels des patients, tout en maintenant une vigilance constante quant aux limites de ces technologies émergentes.