Analyse d'etudes

Utilité des LLM, que disent les études ?

Cette page synthétise les données issues de la littérature scientifique sur l’utilité des grands modèles de langage en médecine, en présentant leurs performances, leurs apports concrets pour les médecins, ainsi que leurs limites et les précautions nécessaires à leur utilisation clinique.
  • Etudes ciblant directement les questions des médecins
  • Limites et risques mis en évidence
  • Recommandations et consensus actuels
  • Et OpenEvidence ?

Etudes ciblant directement les questions de médecins


Une étude transversale (Goodman et al., JAMA Network Open 2023) a soumis 284 questions réelles générées par 33 médecins de 17 spécialités à ChatGPT, puis fait évaluer les réponses par des experts. Les auteurs concluent que l’information est « largement correcte », mais avec des erreurs non négligeables qui imposent une vérification par le clinicien.​

Une revue systématique publiée en janvier 2025 sur les applications des LLM en contexte de soins (JAMA / Nature Med. 2025) souligne que, dans les scénarios de questions cliniques, les modèles atteignent souvent des performances proches, voire comparables à celles d’experts sur des QCM ou des cas standardisés, mais que les données sont très hétérogènes et souvent issues de tests hors situation réelle de prise en charge.

​Les modèles spécialisés (par ex. Med‑PaLM 2, Google) ont obtenu des scores jusqu’à 86,5% sur des jeux de questions médicales (MedQA, MedMCQA, PubMedQA), avec des évaluations montrant que, sur certains axes, des cliniciens préféraient les réponses du modèle à celles d’autres médecins (qualité, structure, sécurité perçue). 

  • Med-PaLM 2 est un modèle d’intelligence artificielle développé par Google Research, spécifiquement adapté au domaine médical pour comprendre et générer des réponses à des questions complexes liées à la santé et à la médecine. Il s’agit d’une version spécialisée de PaLM 2 (Pathways Language Model 2), entraînée et optimisée pour des tâches cliniques et biomédicales.
D’autres études montrent une bonne performance sur des questions issues de guidelines (par ex. hypertension, pédiatrie, spécialités ciblées), mais avec une variabilité importante selon la discipline et le type de question (factuelle vs décisionnelle).​

Limites et risques mis en évidence


Les principales limites ressortant des études sont : 

  • Hallucinations et erreurs ponctuelles: malgré une précision moyenne élevée, certaines réponses contiennent des erreurs factuelles ou des omissions cliniquement importantes, parfois formulées avec une grande assurance.
  • Absence de sources traçables dans la plupart des chatbots généralistes (ChatGPT, Gemini, etc.), ce qui complique la vérification rapide et va à l’encontre des standards de médecine fondée sur les preuves.
  • Variabilité entre spécialités: les performances sont meilleures sur des domaines très représentés dans les données (médecine interne générale, santé mentale), et plus faibles pour des domaines nécessitant de l’imagerie ou des décisions très contextuelles (dermatologie, situations complexes, pédiatrie spécifique).
  • Décalage avec la situation réelle: la majorité des études utilisent des questions standardisées ou des jeux de données tests, et très peu évaluent l’impact direct sur des décisions de prise en charge « au lit du patient » (bedside). 

Recommandations et consensus actuels


Les revues et éditoriaux méthodologiques convergent sur plusieurs points :

Les chatbots LLM peuvent être utiles pour :

  • Générer une première synthèse rapide de l’évidence sur une question clinique
  • Rappeler des options thérapeutiques ou des effets indésirables
  • Aider à structurer le raisonnement ou préparer des explications pour le patient.​
En l’état, ils ne doivent pas être utilisés comme source unique pour des décisions diagnostiques ou thérapeutiques sans vérification dans des sources primaires (guidelines, bases bibliographiques, outils spécialisés type UpToDate, OpenEvidence, etc.).

Des cadres d’évaluation spécifiques sont en cours d’élaboration (par ex. outil CHART pour évaluer les études sur chatbots de santé), soulignant la nécessité d’études mieux rapportées, en conditions réelles, avec des critères de sécurité et d’impact patient.

En pratique, pour un médecin


En résumé, les études montrent que :

  • Oui, des chatbots généralistes comme ChatGPT peuvent répondre avec une bonne précision moyenne aux questions cliniques des médecins, parfois avec une qualité perçue comme comparable à celle de confrères sur des cas standardisés. 
  • Toutefois, les risques d’erreur, l’absence de sources explicites et le manque de validation en conditions réelles font que ces outils doivent être considérés comme aides à la réflexion et non comme systèmes d’aide à la décision médicale validés. 

Et OpenEvidence ?


Plusieurs travaux récents s’attachent à comparer des IA médicales dédiées comme OpenEvidence à des LLM généralistes (ChatGPT, Gemini, Claude, etc.) dans des situations proches de la pratique clinique réelle¹. Un essai prospectif en cours (NCT07199231) prévoit de confronter OpenEvidence à trois LLM grand public sur des questions cliniques posées par des résidents en médecine et en psychiatrie, avec une évaluation indépendante de l’« adéquation clinique » des réponses, de leur complétude et de leurs biais¹. Les résultats définitifs ne sont pas encore publiés, mais l’essai illustre une tendance : les équipes cliniques considèrent désormais OpenEvidence comme un comparateur de référence face aux LLM généralistes¹.

Une étude de 2025 sur la prise en charge des cardiopathies structurelles a évalué ChatGPT‑4o et OpenEvidence comme outils d’aide à la décision pour les interventions valvulaires (TriClip, EVOQUE)². OpenEvidence s’est distingué par la qualité des références et la conformité aux recommandations spécialisées, alors que ChatGPT‑4o pouvait formuler des réponses plausibles mais parfois moins rigoureusement sourcées ou incomplètes².

En résumé:

Les LLM généralistes (ChatGPT, Gemini, Perplexity, etc.) :

  • Atouts : excellente capacité de synthèse, réponses souvent correctes et bien formulées, grande polyvalence³⁻⁵.
  • Limites : risques d’erreurs (« hallucinations »), absence fréquente de références vérifiables, performances variables selon les spécialités et le type de question³⁻⁵.

OpenEvidence :

  • Atouts : réponses systématiquement appuyées sur des références, bonne concordance avec les décisions de cliniciens sur des cas réels, rôle clair de « second avis » ou de renforcement de la décision plutôt que de substitution⁶⁻⁸.
  • Limites : encore peu d’études quantitatives de grande ampleur, impact direct sur les décisions cliniques encore modeste (surtout confirmatoire), et données limitées pour les cas très complexes ou les urgences⁶⁻⁸.

1. NCT07199231. OpenEvidence Safety and Comparative Efficacy of Four LLM’s in Clinical Practice. ClinicalTrials.gov.clinicaltrials​
3. Goodman CW et al. Accuracy and Reliability of Chatbot Responses to Physician Questions. JAMA Netw Open. 2023.jamanetwork​
7. Wu J. OpenEvidence. Fam Med. 2025.journals.stfm​

Messages à retenir

Les grands modèles de langage peuvent fournir des réponses médicales globalement pertinentes, mais avec un risque non négligeable d’erreurs ponctuelles. Leurs performances sont proches de celles de cliniciens sur des cas standardisés, mais restent insuffisamment validées en conditions réelles de pratique. Les LLM sont utiles comme outils d’aide à la réflexion, de synthèse ou de structuration, et non comme systèmes autonomes de décision clinique. L’absence fréquente de sources explicites impose une vérification systématique dans des références médicales fiables. L’utilisation des LLM doit rester critique, encadrée et fondée sur les principes de la médecine fondée sur les preuves. 

Recherche