Campus

Dossier | linguistique

traduction automatique: «Nobody is perfect»

Traduire un texte à l’aide d’un ordinateur passe, dans l’idéal, par plusieurs étapes: l’analyse lexicale, syntaxique puis sémantique. Le résultat dépend de la performance de ces opérations. Mais le logiciel peut rapidement devenir gourmand en mémoire, en temps et en argent

«Alice commençait à être très fatigué d’être assis par sa sœur sur la rive, et de n’avoir rien à faire: une fois ou deux, elle avait regarda dans le livre de sa sœur lisait, mais il n’avait pas d’images ni dialogues en elle, et ce qui est l’utilisation d’un livre, pensait Alice, sans images ou de conversation?»* Ce texte est une traduction du premier paragraphe d’Alice au pays des merveilles de Lewis Carroll réalisée par un moteur de recherche célèbre et dominant Internet depuis plus d’une décennie.

Manifestement, le résultat demande encore du travail pour mériter une publication – surtout pour un texte littéraire. En revanche, aussi lacunaire soit-elle, cette traduction a été instantanée, n’a rien coûté et elle aurait pu être réalisée dans une soixantaine d’autres langues actuellement à disposition. Ce qui constitue un sérieux avantage et contribue à expliquer pourquoi cet outil est si populaire. «Même les traducteurs professionnels y font appel, ne serait-ce que pour obtenir un premier jet», confirme Paola Merlo, professeure associée et responsable du groupe de recherche Computational Learning and Computational Linguistics du Département de linguistique (Faculté des lettres).

Ce système de traduction obtient des scores de fiabilité assez médiocres, situés autour des 80% (selon plusieurs tests réalisés par des traducteurs professionnels comme redaction.be ou www.anyword.fr), ce qui signifie, en gros, que le lecteur bute sur une erreur lexicale ou de syntaxe tous les cinq mots. Dans l’exemple ci-dessus, aucune phrase n’est correcte du point de vue de l’orthographe ou de la grammaire. Tout le monde, y compris les développeurs du logiciel eux-mêmes, est d’accord pour dire qu’il doit encore être perfectionné. Cela dit, la remarque est valable pour l’ensemble des produits existant sur le marché. «Il existe des produits très spécifiques, développés pour de grandes entreprises informatiques, bancaires ou autres, qui font de meilleurs scores mais ils sont plus chers, précise Paola Merlo. En bref, il n’existe toujours pas de logiciel de traduction automatique parfait, même après plus d’un demi-siècle de recherches dans le domaine.»

La traduction automatique est en effet, avec le calcul des trajectoires balistiques à l’aide du système d’équations différentielles, l’application la plus ancienne de l’informatique. Développée à partir de la fin des années 1940, avec la naissance des premiers ordinateurs, elle était au départ destinée à des fins de renseignements militaires. Les premières langues exploitées par ces programmes étaient d’ailleurs l’anglais et le russe, Guerre froide oblige. «On peut retracer l’histoire politique et économique du monde à travers les paires de langues utilisées dans la traduction automatique (anglais/russe, anglais/allemand, anglais/arabe, anglais/chinois, etc.)», note Paola Merlo.

Ce domaine de recherche fait partie de ce qu’on appelle aujourd’hui la linguistique informatique. Celle-ci désigne en réalité deux branches distinctes. La première prolonge la recherche classique sur les langues en se servant des outils de simulation et de modélisation que fournissent les ordinateurs. La seconde se charge du traitement automatique du langage proprement dit et du développement d’applications. Applications qui ne se bornent d’ailleurs pas à la seule traduction automatique.

Longue chaîne de problèmes

«On peut citer aussi l’extraction automatique d’informations, souligne la chercheuse genevoise. Devenue très importante depuis l’avènement du Web, cette application cherche à tirer des informations contenues dans un texte et à les organiser afin d’obtenir un résumé, du matériel pour alimenter un éventuel système de questions-réponses, etc. Il existe aussi la gestion des dialogues entre l’humain et la machine, par exemple. Dans ce cas, la chaîne des problèmes à résoudre est longue. Il s’agit de reconnaître la parole (ce qui est un problème acoustique), de la retranscrire en mots, de comprendre ce qu’ils signifient, de chercher les informations pertinentes dans une base de données, de les organiser dans un texte cohérent et de faire prononcer finalement ce dernier par une voix de synthèse.»

Quelle que soit l’application, à partir d’un texte écrit, la première étape à franchir dans le traitement du langage s’appelle «l’affectation des parties du discours». Il s’agit, en d’autres termes, de reconnaître parmi les mots lesquels sont des articles, des verbes, des noms, etc. «Les logiciels qui se chargent de cette étape sont aujourd’hui très performants, explique Paola Merlo. Ils atteignent des précisions de 98 ou 99% dans de nombreuses langues.»

Ces scores sont obtenus avec des outils conçus au départ pour n’importe quelle tâche de classification mais qui sont écrits de telle manière qu’ils sont capables de s’adapter à un contexte précis, en l’occurrence une langue. La partie spécifique du programme s’adapte en gardant en mémoire des mots et leurs attributions mais aussi les règles générales d’analyse lexicale.

L’étape suivante est l’analyse syntaxique. La machine doit reconnaître les groupes nominaux, les groupes verbaux, les compléments d’objet direct, etc. C’est une partie ardue qui se joue là et les résultats s’en ressentent. Les meilleurs logiciels, pour l’anglais, parviennent à reconnaître correctement environ 90% des groupes grammaticaux dans un texte. Mais, à un niveau d’évaluation plus élevé, environ la moitié des phrases comportent au moins une erreur de syntaxe.

«Nous sommes très actifs dans ce domaine de recherche, explique Paola Merlo. Notre objectif est d’ailleurs de développer un analyseur syntaxique qui ne se limite pas à une langue mais puisse s’adapter à plusieurs idiomes: français, anglais, espagnol, catalan, japonais, chinois, serbe, tchèque, indi…»

Là aussi, les logiciels sont capables de s’adapter à une langue ou à une autre. Mais ce que ces programmes apprennent, en réalité, ce sont des probabilités d’occurrences de mots, de parties du discours et de leurs relations grammaticales. Cela demande que, pour chaque nouvelle langue, ils s’entraînent en étant confrontés à un grand nombre d’exemples. Ce rôle est dévolu aux corpus.

Cent millions de mots

Un corpus est une collection de textes qui, dans le meilleur des cas, est un échantillon représentatif d’une langue (articles de journaux, transcription de l’oral, textes littéraires, etc.). Il peut contenir des millions de mots. L’un des plus importants, le British National Corpus, en compte 100 millions. Pour l’analyse syntaxique, ils sont beaucoup plus petits. Ceux qui fournissent les meilleurs résultats sont en plus annotés. C’est-à-dire que des linguistes ont attribué à la main les parties de phrase de tous les textes du corpus.

Dans le cas spécifique de la traduction automatique, les logiciels se basent sur des corpus parallèles, généralement des documents officiels existant en plusieurs langues que l’on trouve notamment dans les actes du Parlement européen.

Après la syntaxe vient la sémantique. Dans ce cas, il s’agit de savoir, par exemple, si le sujet est un agent actif, le verbe une action, et le groupe de mots suivant un complément d’objet direct («Jean mange une pomme») ou si, au contraire, le sujet est un «expérient» suivi d’un verbe d’état psychologique et de la cause de ce même état psychologique («Jean aime Marie»). Il faut aussi pouvoir distinguer dans la phrase «J’aimerais réserver un vol de Genève à Paris» qu’un des deux groupes prépositionnels est le départ et l’autre l’arrivée. Il faut résoudre les formes logiques dès qu’apparaissent des mots comme les quantificateurs («combien de pays ont une frontière avec la Suisse?»), clarifier les anaphores, c’est-à-dire comprendre à quoi font référence les pronoms («Jean est à Genève. Je l’ai vu hier»), etc.

L’outil de traduction automatique testé au début de cet article n’effectue pas (ou seulement en partie) toutes ces analyses. Il se borne à mettre en parallèle les mots ou bouts de phrases en se basant sur un corpus de plusieurs dizaines de milliards de mots issus de livres, de documents de l’ONU ou encore de millions de sites web existant en plusieurs langues. Cela ne suffit pas encore à produire une version lisible du roman de Lewis Carroll. Pas encore.

* «Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, and what is the use of a book, thought Alice without pictures or conversation?»