Citoyens et étudiants sauvent la mémoire de la Société des Nations
Archives de la Société des Nations à Genève . Photo: N. Righetti/Lundi13
Vingt-six ans d’histoire, 3000 mètres linéaires d’archives, une centaine de citoyens et quatre étudiants: tel est le cocktail qui a permis la mise sur pied de «League of Nations in the Digital Age», un projet de classification des archives de la Société des Nations, de sa création en 1919 à sa dissolution en 1946. Proposée par la Bibliothèque des Nations unies parmi les défis à relever lors de la deuxième édition de la «SDG Summer School», l’initiative vise à rendre accessibles ces documents historiques qui constituent un trésor pour l’humanité (lire ci-contre). Souvent de mauvaise qualité, les copies se sont en effet détériorées au cours du temps et sont aujourd’hui difficiles à déchiffrer par les logiciels de reconnaissance de caractères. Elles nécessitent donc une expertise humaine pour être décodées et indexées.
Pour éviter de recourir à des experts pour corriger les données – un processus coûteux et chronophage –, la Bibliothèque des Nations unies a imaginé faire appel au public
Complexes et composées de multiples formats – documents tapés à la machine, brochures, livres ou lettres manuscrites – les archives de la Société des Nations exigent une main-d’œuvre importante pour leur numérisation. Les images obtenues sont ensuite indexées automatiquement. Mais les limites des systèmes informatiques conduisent à certaines erreurs, ce qui se révèle dommageable lorsqu’il s’agit de retrouver un document. Pour éviter de recourir à des experts pour corriger les données – un processus coûteux et chronophage –, la Bibliothèque des Nations unies a imaginé faire appel au public, par le biais de la «SDG Summer School» (SDG pour Sustainable Development Goals), l’un des programmes développés dans le cadre de la Geneva Tsinghua Initiative (lire encadré). Oday Darwich, Yiyao Li, Shreyasvi Natraj et Yanze Zhang, tous quatre étudiants, se sont alors emparés du défi et ont développé l’idée sur une plateforme de production participative (crowdsourcing).
«Notre école d’été vise à constituer des équipes interdisciplinaires autour de projets émanant des organisations internationales ou des ONG, explique François Grey, professeur au Centre universitaire d’informatique et responsable du projet à Genève. L’avantage est que les étudiants sont confrontés à des problématiques réelles qu’il leur faut résoudre.» Ces derniers sont hébergés au sein du «Geneva SDG Solution Space» que l’Université a inauguré en mai dernier, un «atelier» de 300 mètres carrés où étudiants, chercheurs et experts des organisations internationales peuvent se retrouver et bénéficier de technologies numériques de pointe (imprimantes 3D, coupeuses laser, etc.) pour élaborer des prototypes et tester la pertinence de leurs idées.
Les erreurs de saisie sont évitées grâce à des méthodes statistiques
«La mise en œuvre du projet de la Bibliothèque des Nations unies a exigé bien plus qu’un travail de développement informatique, explique François Grey. La production d’une vidéo de démonstration et la mise au point de tutoriels ont également été nécessaires pour que le travail de déchiffrage puisse être confié au grand public». Les erreurs de saisie sont évitées grâce à des méthodes statistiques, chaque document étant indexé en moyenne par dix personnes différentes. François Grey ajoute: «Bien qu’une faible partie des informations nécessitent d’être saisies, c’est l’entier du document qui est mis à la disposition du contributeur, en contrepartie de son travail. L’expérience dans des projets de crowdsourcing similaires a montré que plusieurs découvertes importantes avaient été réalisées grâce à la curiosité du public.» Lancée le 7 octobre dernier lors de la Journée portes ouvertes de l’ONU, la plateforme comptait déjà 138 participants au moment de mettre sous presse et 1% des documents mis à disposition avaient déjà été indexés (1031 classifications).
Dans un second temps, le projet sera développé en collaboration avec des partenaires de l’EPFL afin d’améliorer les logiciels de reconnaissance de caractères. Cette étape fera également appel au crowdsourcing, via la plateforme CrowdAI qui réunit des spécialistes de l’apprentissage machine (machine learning). Une première moitié des documents et leur indexation manuelle seront d’abord soumises à des machines intelligentes pour développer des algorithmes de reconnaissance, puis l’autre moitié sera utilisée pour tester les propositions. Au final, seul le meilleur algorithme sera retenu. «Dix pour-cent des documents auront toujours besoin d’être analysés par des êtres humains, constate François Grey. C’est pourquoi notre prochain objectif sera de développer une plateforme collaborative entre intelligence artificielle et intelligence humaine afin d’arriver à une compréhension nouvelle des enjeux de l’intelligence artificielle et de ses limites.»
Belle surprise, le projet s’est poursuivi spontanément lors du voyage de clôture de la Summer School en Chine. Profitant du dynamisme de l’infrastructure de production chinoise, les étudiants ont pu faire construire un prototype de scanner à moindre coût, permettant de fournir des documents de qualité suffisante pour un déchiffrage automatique. «La numérisation reste encore très chère, en particulier pour les pays en voie de développement, alors que les données collectées peuvent se révéler très intéressantes, notamment dans des domaines comme la météorologie ou l’épidémiologie», s’enthousiasme François Grey. —
www.zooniverse.org/projects/nshreyasvi/league-of-nations-in-the-digital-age