Dossier/Bio-informatique

Donner du sens au code

Le groupe Parallélisme et calcul scientifique du Département d’informatique est membre de l’Institut suisse de bioinformatique. Il développe des outils informatiques qui permettent d’extraire des informations utiles de l’ADN et des protéines

AAG CTG AAG TTC AGA CGT CTC… Comment s’y retrouver dans cet alignement de lettres qui peut compter jusqu’à 3 milliards de signes? Ce code monotone constitué d’une succession de quatre acides nucléiques (adénine, guanine, thymine et cytosine) est celui du patrimoine génétique de toutes les espèces vivantes. Et un des objectifs du groupe Parallélisme et calcul scientifique (SPC), membre de l’Institut suisse de bioinformatique, est de développer des algorithmes capables d’extraire de l’information biologiquement utile de ces interminables brins d’ADN.

«Une de nos réalisations récentes est le programme Anâtaxis, explique Bastien Chopard, professeur adjoint au Département d’informatique et responsable du groupe SPC. Ce logiciel permet d’analyser et de comparer des portions de génomes puis de reconstituer de très grands arbres phylogénétiques, c’est-à-dire des arbres généalogiques contenant des milliers d’espèces différentes.»

Anâtaxis est issu d’une idée originale de Gabriel Bittar, collaborateur extérieur au groupe. Il en a imaginé le concept, mais, manquant de compétences informatiques, il s’est tourné vers Bastien Chopard pour concrétiser le projet. Bernhard Pascal Sonderegger, ancien assistant au SPC, en a fait son travail de thèse qu’il a terminé en 2007.

«Les avantages d’Anâtaxis par rapport aux autres programmes de phylogénie existants sont sa robustesse, sa rapidité et sa capacité à traiter un grand nombre d’espèces à la fois, précise Bastien Chopard. Notre logiciel tient compte des inévitables erreurs et incertitudes liées au décryptage des codes génétiques. En d’autres termes, il traite des données qu’il considère dès le départ comme pas tout à fait exactes.» De plus, il est capable de déjouer le piège de l’homoplasie: l’évolution peut en effet aboutir deux fois au même trait, dans deux espèces différentes, mais de manière indépendante, sans que les deux espèces partagent un ancêtre commun récent. Du point de vue de l’ADN, cela peut se traduire par des similarités entre deux génomes qui sont en réalité fortuites et ne correspondent pas à une quelconque parenté.

Droit de sortie

Le groupe SPC travaille également sur le développement d’un programme, très ciblé, dont le but est de pouvoir déterminer, à partir de la séquence d’une protéine, si cette dernière est destinée à sortir de la cellule qui l’a fabriquée et à circuler dans l’organisme (c’est-à-dire sécrétée) ou à demeurer à l’intérieur (dans le cytoplasme).

L’objectif n’est pas aisé à atteindre car il n’existe pas de règle absolue en la matière. Les chercheurs ont identifié des «séquences signal» qui jouent le rôle de clé et permettent à la protéine qui en dispose de passer à travers la membrane cellulaire. Mais le mécanisme d’ouverture des portes est encore largement méconnu. Il semble en tout cas très précis car Dominique Belin, professeur adjoint au Département de pathologie et d’immunologie, qui collabore avec le groupe SPC sur ce sujet, a montré qu’en modifiant un seul acide aminé dans certaines protéines habituellement non sécrétée, on pouvait leur conférer une séquence signal.

Comme on ne connaît pas toutes ces «clés» (il en existe différentes sortes), un indice plus pertinent pour la reconnaissance d’une protéine sécrétée est la présence d’un site de clivage. Il s’agit de trois à six acides aminés par lesquels la séquence signal et le reste de la protéine sont attachés (au moment du passage à travers la membrane cellulaire, des enzymes scindent la molécule à cet endroit). Mais cela ne suffit pas non plus, puisque des chercheurs ont trouvé des exemples de protéines sécrétées qui ne disposent pas de sites de clivage.

Pour résoudre tous ces problèmes, Jean-Luc Falcone, collaborateur scientifique au sein du groupe SPC, a développé un logiciel basé sur une série de critères de décision, eux-mêmes établis à partir des connaissances actuelles en biologie moléculaire. L’algorithme est complexe, mais, au final, il permet de reconnaître une séquence signal avec un taux très élevé de réussite (98% au cours d’un essai avec le génome de la bactérie Escherichia coli) tout en donnant une interprétation biologique à ses choix.

«Ces projets montrent bien l’importance qu’il y a à créer des compétences transdisciplinaires, note encore Bastien Chopard. Un pur biologiste aura beaucoup de peine à comprendre un algorithme et à transcrire son savoir biologique en langage informatique. D’un autre côté, son expérience de sa discipline est essentielle à l’informaticien pour que son logiciel produise des résultats conformes à la réalité.»

Une discipline à la mode

L’Université de Genève a été parmi les premières à proposer une formation en bio-informatique. Un cours à option de 2 heures par semaine est introduit dès 1997 à destination des étudiants en biologie et informatique. Cela deviendra un Diplôme d’études approfondies (DEA) entre 1999 et 2004 avant de se muer finalement en une maîtrise universitaire en protéomique.

«La bio-informatique est actuellement à la mode, estime Bastien Chopard. Toutes les grandes universités offrent désormais une formation de pointe dans cette discipline. L’Université de Genève a bien sûr perdu l’exclusivité qu’elle avait dans ce domaine, mais son rôle de pionnier lui permet aujourd’hui de disposer d’un vivier important de bio-informaticiens et son implication importante dans l’Institut suisse de bioinfomatique lui permet de développer une recherche de pointe.»

Campus n°92

Dossier/Bio-informatique

Donner du sens au code