Blog

Que répondent les différentes IA conversationnelle à une question médicale?

Que répondent les différentes IA conversationnelle à une question médicale?

Nous avons soumis la même question à plusieurs applications conversationnelle reposant sur un modèle de langage de grande taille, entraîné par apprentissage automatique (ChatGPT, Gemini, Perplexity, OpenEvidence, Euria et Lumo). L’idée n’est pas de « piéger » un outil, mais d’observer comment chacun se comporte face à une demande typique de la pratique médicale : donner une cible thérapeutique précise (ici le LDL-cholestérol chez un patient coronarien) et citer ses sources.

Ce test à une valeur limitée puisqu’il se base sur une seule question. Il a été effectué en décembre 2025. Les commentaires rédigés pour évaluer chacune de ces réponses sont éminemment subjectifs. 

La question posée à tous les modèles de langage (strictement identique)

« Agis comme un cardiologue, spécialiste de l’hypercholestérolémie. Pour l’un de mes patients présentant une maladie coronarienne sans facteurs de risque cardiovasculaires connus, je souhaite connaître l’objectif à atteindre pour le LDL-cholestérol selon les recommandations les plus récentes des sociétés savantes, y compris suisses. Donne-moi la valeur cible du LDL-cholestérol en mmol/L et indique la ou les sources sur lesquelles repose ta réponse. Réponds de façon synthétique. »

Les réponses des LLM

Vous trouverez par ce lien un document PDF avec l'ensemble des réponses. Ce document est intéressant à parcourir car il montre les différentes réponses des LLM. Il faut cependant admettre que sa lecture est un peu laborieuse....

Commentaires

  1. ChatGPT 5.2 (Auto) : valeur cible correcte, formulation synthétique, référence suisse de faible qualité.
  2. ChatGPT 5.2 (Auto) avec le GPT « Clinical Medicine Handbook » : valeur cible correcte, formulation synthétique, références correctes. Conclusion, l’utlisation du GPT «Clinical Medicine Handbook» génère une réponse de meilleure qualité. 
  3. Gemin 3 (Rapide) : valeur cible correcte, formulation synthétique, références correctes.
  4. Perpexity : valeur cible correcte, formulation synthétique, références correctes. Perplexity cite ses sources pour chaque élément présent dans sa réponse. 
  5. OpenEvidence : valeur cible correcte, formulation synthétique, références correctes.
  6. Euria (Automatique) : valeur cible correcte, formulation très synthétique, références correctes.
  7. Lumo : valeur cible correcte, formulation très synthétique, références correctes.

Et le gagnant est...

La question était précise, simple, mais il faut retenir que toutes les plateformes donnent la bonne réponse. 

  1. Dans cet exemple ChatGPT est meilleur lorsque l’on utilise un GPT « médical ».  La réponse de ChatGPT avec le GPT le GPT « Clinical Medicine Handbook » est correcte, synthétique et agréable à lire.
  2.  Elément intéressant, Gemini cite les dernières recommandations « mise à jour ciblée de2025 » mais la réponse est moins agréable à lire. 
  3. Perplexity, une réponse claire, synthétique, référencée.
  4. OpenEvidence, une réponse claire, un peu plus développée, référencée. 
  5. Euria, une réponse claire, synthétique, référencée.
  6. Lumo, une réponse claire, synthétique, référencée. Il est intéressant de noter la prudence de la réponse de Lumo « il serait prudent de vérifier les dernières publications ou de consulter le site officiel de chaque société »

Nos recommandations

Mais nous sommes ouverts à la critique ;-)

Pour les questions médicales: 1. OpenEvidence 2. Perplexity 3. Euria ou Lumo

Pour les autres: 1. Euria ou Lumo 2. Perplexity 3. ChatGPT, Gemini ou Claude

Jean Gabriel Jeannot, le 08.01.2026

Nous vous encourageons à lire sur ce thème notre article  "Quels LLM utiliser ? "

Pas de commentaire encore
Recherche