Machine Learning - Plateforme de Science des Données Biomédicales

Découverte de biomarqueurs et modèles prédictifs

Nous réalisons des analyses par machine learning (ML) pour vous aider à révéler les régularités dans les données biomédicales complexes (p. ex. transcriptomique bulk ou single-cell, analyse d'images, questionnaires, etc) et extraire l’information scientifiquement pertinente. Notre approche met l’accent sur la qualité du traitement des données, la prévention des biais (en évitant le sur-apprentissage), la validation robuste (cross-validation, bootstrap) et l’interprétation biologique.

Ce que nous proposons

Modélisation prédictive (régression régularisée, Random Forest, gradient boosting type XGBoost, réseaux de neurones) selon le compromis de performance vs interprétabilité.
Extraction de signatures (listes de gènes pour une interprétation biologique simplifiée)
Sélection de variables (filtrage initial par amplitude de variation, méthodes embarquées type glmnet / sPLS).
Harmonisation de données multi-cohortes (normalisation, correction d’effets de batch, harmonisation d’annotations cliniques).
Validation et ajustement de modèles par des procédures anti-“overfitting” (séparation en jeux de données d’entrainement et de test, cross-validation, bootstrapping)

Ce dont nous avons besoin de votre part

La question et le phénotype à prédire, avec une définition claire du “gold standard”.
Les données (expression, métadonnées/annotations) et les contraintes de partage et d’accès.
Un contact scientifique pour valider les choix (métriques, compromis interprétabilité vs complexité).

Exemple : biomarqueurs prédictifs avec PAGEpy

PAGEpy (Predictive Analysis of Gene Expression in Python) est un programme open-source python permettant de tester rapidement si un réseau de neurones multi-couches peut prédire une variable cible à partir d’un jeu d’expression génique. Cet outil intègre un pipeline de séparation train/test, sélection de gènes variables et optimisation de la sélection par un système de Particle Swarm Optimization (PSO).