Découverte de biomarqueurs et modèles prédictifs
Nous réalisons des analyses par machine learning (ML) pour vous aider à révéler les régularités dans les données biomédicales complexes (p. ex. transcriptomique bulk ou single-cell, analyse d'images, questionnaires, etc) et extraire l’information scientifiquement pertinente. Notre approche met l’accent sur la qualité du traitement des données, la prévention des biais (en évitant le sur-apprentissage), la validation robuste (cross-validation, bootstrap) et l’interprétation biologique.
Ce que nous proposons
- Modélisation prédictive (régression régularisée, Random Forest, gradient boosting type XGBoost, réseaux de neurones) selon le compromis de performance vs interprétabilité.
- Extraction de signatures (listes de gènes pour une interprétation biologique simplifiée)
- Sélection de variables (filtrage initial par amplitude de variation, méthodes embarquées type glmnet / sPLS).
- Harmonisation de données multi-cohortes (normalisation, correction d’effets de batch, harmonisation d’annotations cliniques).
- Validation et ajustement de modèles par des procédures anti-“overfitting” (séparation en jeux de données d’entrainement et de test, cross-validation, bootstrapping)
Ce dont nous avons besoin de votre part
La question et le phénotype à prédire, avec une définition claire du “gold standard”.
Les données (expression, métadonnées/annotations) et les contraintes de partage et d’accès.
Un contact scientifique pour valider les choix (métriques, compromis interprétabilité vs complexité).
Exemple : biomarqueurs prédictifs avec PAGEpy
PAGEpy (Predictive Analysis of Gene Expression in Python) est un programme open-source python permettant de tester rapidement si un réseau de neurones multi-couches peut prédire une variable cible à partir d’un jeu d’expression génique. Cet outil intègre un pipeline de séparation train/test, sélection de gènes variables et optimisation de la sélection par un système de Particle Swarm Optimization (PSO).