Découverte de biomarqueurs et modèles prédictifs

Nous réalisons des analyses par machine learning (ML) pour vous aider à révéler les régularités dans les données biomédicales complexes (p. ex. transcriptomique bulk ou single-cell, analyse d'images, questionnaires, etc) et extraire l’information scientifiquement pertinente. Notre approche met l’accent sur la qualité du traitement des données, la prévention des biais (en évitant le sur-apprentissage), la validation robuste (cross-validation, bootstrap) et l’interprétation biologique. 

Ce que nous proposons 

  • Modélisation prédictive (régression régularisée, Random Forest, gradient boosting type XGBoost, réseaux de neurones) selon le compromis de performance vs interprétabilité. 
  • Extraction de signatures (listes de gènes pour une interprétation biologique simplifiée)  
  • Sélection de variables (filtrage initial par amplitude de variation, méthodes embarquées type glmnet / sPLS). 
  • Harmonisation de données multi-cohortes (normalisation, correction d’effets de batch, harmonisation d’annotations cliniques).​ 
  • Validation et ajustement de modèles par des procédures anti-“overfitting” (séparation en jeux de données d’entrainement et de test, cross-validation, bootstrapping) 

Ce dont nous avons besoin de votre part 

La question et le phénotype à prédire, avec une définition claire du “gold standard”.​ 
Les données (expression, métadonnées/annotations) et les contraintes de partage et d’accès.​​ 
Un contact scientifique pour valider les choix (métriques, compromis interprétabilité vs complexité).​ 


Exemple : biomarqueurs prédictifs avec PAGEpy 

PAGEpy (Predictive Analysis of Gene Expression in Python) est un programme open-source python permettant de tester rapidement si un réseau de neurones multi-couches peut prédire une variable cible à partir d’un jeu d’expression génique. Cet outil intègre un pipeline de séparation train/test, sélection de gènes variables et optimisation de la sélection par un système de Particle Swarm Optimization (PSO).