Méta-analyses : L'IA meilleure que l’humain ?

Une équipe de recherche de la Faculté de médecine de l’UNIGE et des HUG a développé une méthode combinant plusieurs intelligences artificielles pour automatiser le tri d'articles scientifiques, une partie cruciale des revues systématiques médicales. Cette approche innovante atteint une précision de plus de 97%, dépassant la précision humaine.  Des résultats à découvrir dans le journal Research Synthesis Methods.

Image: Istock

Les méta-analyses sont essentielles en recherche car elles rassemblent et combinent les résultats de plusieurs études sur un même sujet, permettant ainsi une vision plus fiable et complète qu’une seule étude isolée. En augmentant la taille des données analysées, elles renforcent la puissance statistique et la précision des conclusions. Les résultats de telles études constituent le socle des normes et règlementations qui s’appliquent en santé publique et en pratique clinique. Toutefois, le travail d’identification et de sélection d’études répondant à une question de recherche précise peut prendre jusqu’à plusieurs années de travail.

Les défis de l'automatisation en recherche médicale

« Bien que les grands modèles de langage (LLM) semblent prometteurs pour automatiser certaines tâches, leur tendance à produire des informations erronées ou à "halluciner" peut compromettre la fiabilité des résultats », explique Denis Mongin, chercheur spécialiste en sciences des données à la Faculté de médecine de l’UNIGE, qui a dirigé ces travaux. « C’est pourquoi nous avons décidé de comparer les résultats de plusieurs LLM, selon le principe que la précision des résultats augmente lorsque les réponses de plusieurs LLM sont similaires. »
Pour tester les IA, l’équipe de recherche a développé un système où une réponse n’est acceptée que si plusieurs modèles donnent le même résultat, puis testé cette méthode sur 1 020 abstracts d’articles en rhumatologie en utilisant différentes combinaisons de modèles accessibles ouvertement et de petite taille : llama3 de Meta, granite d’IBM, qwen de Alibaba, Ministral de Mistral, Yi de 01.ai, gemma 2 de google, deepseek de Deepseek AI, Phi 3 de Microsoft, et Aya expanse de Cohere for AI.

Des résultats qui dépassent les attentes

Les mêmes abstracts avaient préalablement été évalués par deux personnes séparément, puis par une troisième en cas de désaccord selon les bonnes pratiques de la méta-analyse. « Notre système a atteint une précision supérieure à 97%, surpassant ainsi le standard de référence humain », s’enthousiasme Delphine Courvoisier, professeure à la Faculté de médecine de l’UNIGE et épidémiologiste au Service qualité des soins des HUG. « Et elle a permis d'identifier certaines erreurs dans les évaluations humaines initiales. »

Cette avancée pourrait ainsi transformer radicalement le processus des revues systématiques. En automatisant le tri initial des articles sans perte de qualité, elle permettrait aux chercheurs et aux chercheuses de concentrer leur expertise sur les analyses complexes et les cas ambigus. Les délais de réalisation des revues systématiques, actuellement de plusieurs mois voire années, pourraient être considérablement réduits et ainsi permettre la publication beaucoup plus rapides de données capables de guider les décisions en santé publique et en pratique clinique.

18 nov. 2025

Media