Entretien
LA PAROLE À… RAPHAËL RUBINO

Expert en apprentissage et en traduction automatique, Raphaël Rubino a obtenu un doctorat en science de l’informatique de l’Université d’Avignon en 2011, avant d’approfondir son expertise pendant une quinzaine d’années à travers l’Europe, l’Asie et l’Amérique du Nord, en participant à des projets en traitement automatique du langage naturel (TALN) et en intelligence artificielle. Son travail est largement publié dans des journaux, conférences et ateliers du domaine et reflète ses collaborations internationales. Depuis 2023, il a rejoint le département TIM de la FTI sous la direction de la professeure Pierrette Bouillon. Aujourd’hui, il nous en dit plus sur le projet de recherche qui l’occupe actuellement : RCnum.
Pouvez-vous nous en dire plus sur le projet RCnum ?
Il s’agit d’un projet de recherche intitulé « Une édition sémantique et multilingue en ligne des registres du Conseil de Genève (1545-1550) », ou RCnum en abrégé. Dirigé par la professeure Pierrette Bouillon et les professeurs Laurent Moccozet et Stéphane Marchand-Maillet, il a commencé en 2023 et se terminera en 2027. Financé par le FNS, il porte sur l’élaboration d’outils d’aide à la consultation et à l’étude des registres du Conseil de Genève à l’époque de Calvin. Ces registres, publiés auparavant sous format papier pour les années allant de 1536 à 1544, constituent une source d’informations inestimable permettant de mieux connaître l’histoire politique, juridique, économique, sociale et religieuse de la cité, ainsi que les représentations du monde qui étaient celles de Genève au XVIe siècle. Ils sont aussi intéressants d’un point de vue linguistique. Le projet RCnum vise la mise en ligne du contenu enrichi, normalisé et modernisé des registres du Conseil de Genève sur la période allant de 1545 à 1550, accompagné de sa traduction dans plusieurs langues (p. ex. en anglais, allemand, italien, etc.).
Quel est le but de ce projet ?
La normalisation permet de réduire les variantes orthographiques, et la modernisation passe par une traduction intralinguale en français d’aujourd’hui. Le tout sera accessible librement au travers d’une plateforme pérenne, ouverte (open source) et ergonomique, répondant aux besoins exprimés par une variété d’utilisateurs et d’utilisatrices ayant des profils différents, ainsi que des besoins et des attentes spécifiques. Ainsi, le projet RCnum permettra de rendre accessibles au plus grand nombre des documents fondamentaux pour l’histoire locale et internationale sous différentes formes.

Quels sont les partenaires de ce projet ?
La Faculté de traduction et d’interprétation (FTI) et le Centre universitaire d’informatique (CUI) de l’Université de Genève sont partenaires sur ce projet. Notamment, à la FTI, Pierrette Bouillon, Mathilde Fontanet, Johanna Gerlach et Jonathan Mutal réalisent les travaux de modernisation, de traduction et de développement d’interfaces de consultation des données traitées. Au CUI, Gilles Falquet, Stéphane Marchand-Maillet, Laurent Moccozet, Christophe Chazalon, Marco Sorbi et Hélène de Ribaupierre travaillent sur l’enrichissement des données et leur visualisation. De plus, Sandra Coram-Mekkey, experte paléographe et historienne de la Fondation de l'Encyclopédie de Genève, participe activement à la transcription des textes des registres, et Christophe Chazalon, également historien, à leur modernisation.
Pourquoi avoir choisi de contribuer à ce projet ?
La pluridisciplinarité et les applications finales de ce projet sont d’importants facteurs qui le rendent très attrayant. La collaboration entre les différents partenaires du projet permet d’élargir les possibilités liées à l’intelligence artificielle en apportant aux grands modèles de langage (large language models – LLM) l’expertise et les connaissances requises en histoire, en linguistique et en traduction. Cela permet aussi de mettre en avant les limites des modèles actuels, qui nécessitent le savoir des partenaires du projet afin d’effectuer des tâches comme la modernisation ou la traduction. En outre, l’application de l’intelligence artificielle au traitement des registres du Conseil de Genève étant une tâche encore peu étudiée, il nous est possible de contribuer à la recherche en humanités numériques en proposant des méthodes spécifiques aux données issues des registres, tout en développant également des approches indépendantes des langues et des types de documents. Enfin, il me paraît important de préserver le patrimoine historique.
Quelle est votre contribution à ce projet ?
Ma spécialité est le traitement automatique des langues, en particulier la traduction automatique. J’utilise des techniques de traduction automatique pour produire des versions des registres du Conseil de Genève normalisées à l’intention des personnes expertes, et modernisées pour un public plus large.
En quoi consiste votre travail ?
J’explore actuellement les possibilités liées aux LLMs, ces réseaux de neurones artificiels entraînés sur de grandes quantités de données. Nous étudions leurs adaptations aux tâches de normalisation, de modernisation en français et de traduction des registres du Conseil de Genève. Ces deux dernières tâches reposent sur des versions contemporaines du langage naturel ; la normalisation, quant à elle, nécessite une recherche approfondie sur le fonctionnement des modèles, la préparation des données, ainsi que la production de données synthétiques (artificielles).
Depuis le début du projet, quelles sont les principales difficultés que vous avez rencontrées ?
La grande majorité des approches actuelles sont basées sur les données, i.e. une grande quantité de texte est utilisée pour en dériver une modélisation satisfaisant un objectif formulé mathématiquement. La normalisation du contenu des registres du Conseil de Genève selon des normes d’édition est impossible à effectuer par une IA grand public. L’adaptation des grands modèles de langage est donc un axe de recherche majeur dans mes travaux, qui utilisent les données produites par les autres membres du projet.
Quels sont les axes de recherche envisagés pour l’avenir ?
Une première approche concerne la combinaison de plusieurs sources de données (le contenu des registres du Conseil, les annotations en surface et la sémantique au travers de graphes de connaissances) afin de tirer au mieux parti des travaux actuellement menés par le CUI. Une seconde approche repose sur l’apprentissage continu, qui permet d’améliorer les modèles de langage selon un protocole itératif alternant affinage des modèles et correction manuelle. Cette méthode est actuellement mise en œuvre dans le cadre de la normalisation des registres du Conseil, grâce aux corrections manuelles (post-édition) effectuées par Sandra Coram-Mekkey, et nous explorons en parallèle son application à la modernisation des registres, grâce à l’expertise de Christophe Chazalon, de Mathilde Fontanet et de Pierrette Bouillon.
