Dossier/Bio-informatique

Swiss-Prot publie le catalogue des protéines humaines

L’Institut suisse de bioinformatique a été créé il y a dix ans pour assurer, entre autres, la pérennité de la base de données Swiss-Prot. Celle-ci regroupe toutes les protéines connues appartenant à 11 000 espèces, dont l’être humain qui en possède 60 000

Après une décennie d’existence, l’Institut suisse de bio-informatique (ISB) rassemble une vingtaine de groupes de recherche répartis entre Genève, Lausanne, Berne, Bâle et Zurich. Le plus grand d’entre eux, le groupe Swiss-Prot basé à Genève, gère et développe la banque de protéines du même nom qui est devenue un outil indispensable – et unique –pour des centaines de milliers de chercheurs du monde entier. Le 2 septembre dernier, les chercheurs de cette équipe ont rendu public, lors d’un congrès à Sienne en Italie, le catalogue le plus complet à ce jour de toutes les protéines humaines connues – le protéome humain. Entretien avec Amos Bairoch, professeur adjoint au Département de biologie structurale et bioinformatique et coresponsable du groupe Swiss-Prot de l’ISB.

Quel est le point commun à tous les groupes de l’ISB?

Amos Bairoch: Tous allient, à des degrés divers, la recherche fondamentale dans les sciences de la vie et le développement d’outils informatiques leur permettant d’analyser le génome ou le protéome. C’est ce qu’on appelle la bio-informatique. Paradoxalement, les activités du groupe Swiss-Prot que je co-dirige sont plus proches du métier d’éditeur puisque notre tâche consiste à publier le catalogue de protéines le plus complet qui existe.

Vous êtes le créateur de Swiss-Prot. Qu’est-ce qui vous a amené à collectionner les protéines?

Au cours de mon diplôme en biochimie, je me suis lancé dans un travail d’analyse et de séquençage de protéines à l’aide d’un spectromètre de masse. Comme il s’agissait d’une technique nouvelle pour l’époque, il a fallu commander l’appareil. Cependant, lorsqu’il est arrivé à Genève, il est immédiatement tombé en panne. L’ordinateur qui l’accompagnait, lui, fonctionnait. J’ai alors légèrement changé mon sujet de diplôme afin de développer un programme informatique capable d’analyser des séquences de protéines que le spectromètre de masse était censé produire un jour. J’ai poursuivi dans la même voie durant ma thèse, entre 1983 et 1989. Cela a abouti à un programme d’analyse de séquences de protéines et d’acides nucléiques, appelé PC/Gene (ce logiciel a connu un franc succès et a été commercialisé par une firme américaine jusqu’en 1993). Seulement, tout au long de la fabrication du logiciel, il a bien fallu que je le teste avec de véritables séquences de protéines. C’est pourquoi, dès mon diplôme, je me suis tourné vers la base de données de protéines américaine PIR (Protein Information Resource), l’héritière de l’Atlas of Protein Sequence and Structure, dont l’existence remonte à 1965. J’ai eu accès aux premières données informatisées de PIR en 1984. Je les ai intégrées dans mon programme PC/Gene, mais de nombreux problèmes sont apparus. Il manquait des informations sur les protéines permettant entre autres de faire le lien entre elles et les gènes correspondants. J’ai envoyé des lettres aux responsables pour demander d’y remédier. Je n’ai reçu aucune réponse. Quand je les ai finalement rencontrés au cours d’un congrès scientifique, ils m’ont répondu qu’ils n’avaient pas le temps de s’occuper de ce genre de choses.

Qu’avez-vous fait ?

J’ai cherché à créer une version améliorée de PIR. Les utilisateurs PC/Gene ont apprécié et m’ont demandé s’ils pouvaient consulter cette nouvelle banque de protéines indépendamment du logiciel. C’est ainsi qu’est né Swiss-Prot, en 1986. La mise à jour continuelle de cette base de données a vite demandé beaucoup de travail – et il fallait que je termine ma thèse. Je me suis alors tourné vers le Laboratoire européen de biologie moléculaire (EMBL) à Heidelberg, qui gérait déjà une base de données d’acides nucléiques, c’est-à-dire de l’ADN. Ils ont accepté de distribuer Swiss-Prot et d’engager une personne pour s’en occuper. Mais même ainsi, cela n’a pas suffi pour absorber tout le travail. Je n’ai donc pas pu abandonner le projet et, vingt-deux ans après, je suis toujours attelé à cette tâche. Quand j’ai fini ma thèse, Swiss-Prot contenait déjà 10 000 protéines, soit plus du double de la première version de 1986.

Où avez-vous trouvé les premiers fonds pour entretenir Swiss-Prot?

Au début, la vente du logiciel PC/Gene m’a permis d’engager deux personnes. Le Fonds national pour la recherche scientifique m’en a payé deux autres durant cinq ans. Mais, je n’ai pas pu renouveler cette dernière source de revenus. En 1995, notre pays n’avait pas encore d’accords avec l’Union européenne en matière de recherche scientifique. Toute aide m’a été refusée par ce canal aussi. En 1996, nous avons lancé un cri d’alarme sur le Web, annonçant notre disparition dans les quinze jours si l’on n’obtenait pas de financement. Swiss-Prot étant devenu très populaire dans la communauté scientifique, nous avons reçu une avalanche de lettres de soutien. Des revues comme Science et Nature ont publié des articles à notre sujet.

Comment avez-vous résolu le problème ?

Cette agitation a réveillé les dirigeants locaux, dont Guy-Olivier Segond, alors conseiller d’Etat genevois en charge de l’Action sociale et de la santé. Cet ardent défenseur des nouvelles technologies nous a permis de rester à flot le temps de trouver une solution. Après beaucoup de cogitations et quelques mesures transitoires, il a été décidé de créer un institut de recherche directement subventionné par la Confédération (à l’instar du Paul Scherrer Institut). C’est devenu l’ISB, fondé en 1998, qui réunissait alors cinq groupes, dont le mien, chargé de s’occuper de Swiss-Prot. Cette stratégie nous a assuré la moitié de nos revenus. L’autre moitié est venue de l’industrie, pour laquelle la consultation de Swiss-Prot est devenue payante – la gratuité étant garantie pour les laboratoires académiques.

Est-ce le cas encore aujourd’hui ?

Non. Ce système, encouragé par les autorités suisses, a convenu à tout le monde, sauf au gouvernement des Etats-Unis. Pour faire pression, ces derniers ont débloqué des fonds pour créer une base de données concurrente, dont l’accès aurait été gratuit pour les entreprises. Ils auraient pu facilement exploiter toutes nos données, puisqu’elles appartiennent au domaine public. Nous n’avions donc pas le choix. Nous avons participé au concours d’attribution du fonds et nous l’avons remporté. La banque de protéines s’appelle depuis 2000 UniProt et est un consortium entre Swiss-Prot, l’EBI (l’Institut européen de bioinformatique, appartenant à l’EMBL) et le PIR (dont les données ont été intégrées dans Swiss-Prot). Ce qui est curieux, c’est que l’argent que nous prélevions sur les firmes privées – qui en avaient les moyens – provient maintenant des contribuables américains, au travers du budget du National Institute of Health (NIH).

Cet arrangement vous convient-il?

Pas vraiment. Aujourd’hui, avec la faiblesse du dollar face à l’euro et les coupes budgétaires subies par le NIH, on doit s’attendre à une baisse de nos subventions américaines, qui se montent en tout à 2,5 millions de dollars par année. Le comble est que l’idée de vendre les services de Swiss-Prot aux entreprises a refait surface dernièrement.

Vous venez de publier, le 2 septembre dernier, la première version actualisée du protéome humain. De quoi s’agit-il?

Swiss-Prot est une banque de protéines dont chaque fiche est vérifiée manuellement. Ce contrôle ne concerne pas seulement la séquence en acides aminés de la protéine, mais aussi toutes les informations qui la concernent: la fonction de la protéine, où et quand elle est exprimée ou détruite, quelles maladies lui sont éventuellement associées, etc. Ces fiches signalétiques ne seront jamais définitives puisqu’on publie chaque jour de nouvelles recherches concernant les protéines. De tous les organismes représentés dans Swiss-Prot (animaux, plantes, champignons, microbes, unicellulaires, etc.), le plus important pour nous est bien sûr l’être humain. Son génome est connu depuis 2001, ce qui a permis d’identifier la plupart des gènes. On estime aujourd’hui que l’homme possède près de 21 000 gènes produisant des protéines. Parmi eux, beaucoup n’ont pas encore été étudiés par les chercheurs: ils sont considérés comme des gènes puisqu’ils en ont l’apparence, mais la ou les protéines qu’ils produisent n’ont pas encore été détectées. Le but de notre publication est donc de fournir, en l’état actuel des connaissances, la description la plus précise possible de toutes les protéines humaines connues. Il en manque, puisqu’il existe certainement quelques gènes qui n’ont pas encore été identifiés. D’autres sont probablement de trop, puisque leur existence n’est que théorique.

Nous possédons 21 000 gènes, mais combien de protéines différentes produisent-ils?

Un gène peut en effet produire plusieurs protéines différentes selon qu’il utilise toute sa séquence ou qu’il en néglige certaines portions. En général, toutes les molécules issues du même gène se ressemblent énormément. Dans Swiss-Prot, chaque fiche correspond donc à un gène et répertorie toutes les protéines qui lui sont associées. La nature étant faite d’exceptions, il arrive cependant que le même gène produise des protéines très différentes les unes des autres. Dans ce cas, nous créons plusieurs entrées distinctes. En bref, j’estime le nombre de protéines produites par notre génome à 60 000.

Faudra-t-il du temps pour trouver les protéines manquantes?

Oui, la tâche sera longue. L’ADN est présent dans toutes les cellules de l’organisme, mais les protéines, elles, ne sont produites que dans les tissus où elles sont nécessaires et parfois même à certains moments de la journée. La protéine qui n’est exprimée que dans un petit nombre de cellules, à très petite dose et pendant quelques heures par journée ne sera pas facile à trouver. De plus, l’identification par spectrométrie de masse est encore très laborieuse. On peut se contenter de l’ARN messager. Mais il n’est jamais sûr à 100% que cette étape intermédiaire entre le gène et la protéine aboutisse bel et bien à la fabrication d’une protéine. L’incertitude grandit encore si l’on se contente des gènes qui peuvent être, sans que cela soit évident à voir, des pseudogènes, c’est-à-dire des gènes inactifs. On peut parfois résoudre ce problème en réalisant des comparaisons entre espèces. En effet, si un gène humain inconnu se retrouve presque inchangé chez un animal aussi éloigné du point de vue de l’évolution que la souris, alors il y a beaucoup de chance qu’il soit toujours actif et produise des protéines.

Qui utilise Swiss-Prot?

La grande majorité des utilisateurs sont des biologistes, des biochimistes et des médecins qui exploitent la base de données dans le cadre de leurs recherches fondamentales ou cliniques. Les bio-informaticiens sont également nombreux à utiliser Swiss-Prot comme terrain d’essai pour leurs logiciels, ainsi que pour valider ou infirmer certaines hypothèses. De plus en plus de chimistes s’y intéressent aussi, notamment ceux qui cherchent à développer, à partir de protéines existantes, des molécules aux propriétés spécifiques, comme des enzymes capables de dégrader des hydrocarbures ou autres produits polluants. Idem pour les experts en nanotechnologies qui trouvent dans la banque des pièces détachées pour leurs minuscules machines. Swiss-Prot attire aussi des professeurs et des enseignants en biologie. Et puis, il y a ceux que l’on n’attendait pas: les avocats. Ceux-ci sont en général intéressés de savoir à quelle date certaines informations ont été publiées pour la première fois. Cela concerne souvent des litiges ou des procès au sujet de brevets.

Certains génomes décryptés appartiennent à des individus identifiables, comme Craig Venter, l’ex-patron de la firme Celera Genomics. Ils comportent des petites variations personnelles qui peuvent se retrouver au niveau des protéines. Comment gérez-vous ce genre de données qui relèvent de la sphère privée?

Contrairement aux banques de données ADN, qui collectionnent le code génétique entier, Swiss-Prot n’est que partiellement concernée par ce débat. En effet, la plupart des variations entre individus sont situées dans les zones dites «non codantes» de l’ADN. Seul 1% d’entre elles touche des gènes et concerne potentiellement la fabrication des protéines. La majorité de ces modifications sont toutefois neutres et n’affectent pas, en fin de compte, la séquence d’acides aminés. Cela dit, celles qui ont bel et bien un effet sur les protéines, bien que rares, sont évidemment aussi celles qui concernent la recherche médicale et, partant, la sphère privée du donneur. Craig Venter a décidé de rendre publique l’intégralité de son génome. C’est son choix. Seuls les spécialistes peuvent reconnaître les données spécifiques qui ont été tirées de son ADN, mais c’est possible. Toute la question est de savoir ce que l’on va faire avec les génomes des autres individus, de plus en plus nombreux, dont le génome sera décrypté. Nous attendons que les débats éthiques parviennent à un consensus pour savoir si les variantes personnelles que l’on pourra détecter seront enregistrées anonymement ou pas, à l’aide d’un nom de code reconnaissable uniquement par la personne en question et/ou son médecin, etc. Mais il faut faire vite. Dans quelques années, n’importe qui pourra décrypter son génome en quelques heures et pour seulement 100 francs.

Vraiment?

Il existe actuellement à Genève une machine qui lit 3 milliards de «lettres» du code génétique en deux ou trois semaines pour un coût avoisinant les 100 000 francs. La nouvelle génération de ces appareils, déjà sur le marché, fait de même en une semaine et pour 10 000 francs. Il existe même un prototype de machine basé sur une technologie différente, capable de lire l’ADN en direct et qui promet de décrypter un génome humain entier en une heure.

Quel intérêt un individu peut-il avoir à décrypter son génome et à connaître son protéome?

Le génome et le protéome d’une personne peuvent fournir des informations sur d’éventuelles prédispositions à développer des maladies ou des allergies à certaines substances. Là aussi intervient une question éthique. Faut-il informer un patient que son profil protéomique lui confère un risque augmenté pour telle ou telle affection? La règle de base est de répondre à cette question par l’affirmative seulement si la personne peut agir contre cette menace (traitement préventif, changement de mode d’alimentation, etc.). Si la maladie en question est incurable, mieux vaut ne rien dire.

Votre banque de protéines ne va-t-elle pas exploser si tout le monde y dépose les siennes?

Non. En fait, tout le monde possède en gros les mêmes protéines. A l’échelle de Swiss-Prot, les variations internes à l’espèce humaine sont très peu nombreuses et facilement intégrables. Ce qui fait considérablement grossir notre base de données c’est l’arrivée de génomes de nouvelles espèces. Bientôt, les chercheurs décrypteront l’ADN entier de toutes les formes de vie qu’ils connaissent. Les zoos feront de même avec leurs propres animaux. Dans vingt ans, Swiss-Prot comptera peut-être une centaine de milliards de protéines.

Quel est l’intérêt de cataloguer tous les génomes et protéomes de la vie sur Terre?

Le fait de connaître tous ces génomes permet de retracer l’évolution des espèces et d’étudier en détail l’arbre de la vie. En revanche, posséder la séquence de toutes les protéines du monde vivant ne servira probablement à rien dans la grande majorité des cas. De temps en temps, il se peut cependant que l’on découvre une protéine dont les caractéristiques peuvent être utiles en médecine, en biotechnologie ou pour l’industrie agroalimentaire.


L’ISB et Swiss-Prot en quelques chiffres ◗ L’Institut suisse de bioinformatique (ISB) est un institut académique comptant une vingtaine de groupes, soit environ 250 personnes réparties entre Bâle, Berne, Genève, Lausanne et Zurich. Il coordonne la recherche et la formation dans le domaine de la bio-informatique en Suisse et assure un certain nombre de services à la communauté scientifique.soit environ 250 personnes réparties entre Bâle, Berne, Genève, Lausanne et Zurich. Il coordonne la recherche et la formation dans le domaine de la bio-informatique en Suisse et assure un certain nombre de services à la communauté scientifique. ◗ Une des équipes genevoises, le groupe Swiss-Prot, s’occupe de la mise à jour de la base de données de protéines UniProtKB/Swiss-Prot. Elle regroupe actuellement plus de 390 000 fiches, validées manuellement une à une, correspondant à autant de gènes. Ces derniers proviennent d’environ 11 000 espèces différentes, de l’homme aux bactéries en passant par le mammouth et les plantes. ◗ Chaque fiche contient des informations détaillées sur le nom et la fonction des protéines produites par le gène en question, sur la classification de l’espèce dont celui-ci provient, sur sa séquence, etc. Cette base de données permet aux chercheurs d’identifier des protéines trouvées dans des échantillons biologiques, de découvrir des ressemblances avec des protéines d’autres espèces, etc. ◗ Le groupe Swiss-Prot fait partie d’un consortium, appelé UniProt, regroupant également l’European Bioinformatics Institute (basé au Royaume-Uni) et la Protein Information Resource (basé aux Etats-Unis).la Protein Information Resource (basé aux Etats-Unis). ◗ Les chercheurs de l’ISB participent à l’effort international d’identification des gènes et des protéines du monde vivant, que ce soit pour l’être humain, les bactéries, les plantes, les champignons ou encore les virus. Leurs recherches s’orientent également vers la phylogénie, à savoir la science qui établit les liens de parenté entre les espèces. Un autre domaine est le développement de techniques permettant d’exploiter la littérature scientifique (l’information ne vient pas toute seule), d’outils servant à analyser les séquences et les structures des protéines, de programme de modélisation en trois dimensions, etc.à l’effort international d’identification des gènes et des protéines du monde vivant, que ce soit pour l’être humain, les bactéries, les plantes, les champignons ou encore les virus. Leurs recherches s’orientent également vers la phylogénie, à savoir la science qui établit les liens de parenté entre les espèces. Un autre domaine est le développement de techniques permettant d’exploiter la littérature scientifique (l’information ne vient pas toute seule), d’outils servant à analyser les séquences et les structures des protéines, de programme de modélisation en trois dimensions, etc. ◗ L’ISB possède une école doctorale et propose plusieurs maîtrises universitaires en bio-informatique, dont une en protéomique et bio-informatique à Genève. et propose plusieurs maîtrises universitaires en bio-informatique, dont une en protéomique et bio-informatique à Genève.

Campus n°92

Dossier/Bio-informatique

Swiss-Prot publie le catalogue des protéines humaines

L’ISB et Swiss-Prot en quelques chiffres