FoNDUE - Une infrastructure HTR pour Genève

PROJET
L’HTR (Handwritten Text Recognition), parfois aussi appelé OCR (Optical character recognition), devient un besoin de plus en plus urgent des équipes de l’UNIGE. L’enjeu est le suivant : extraire rapidement et efficacement un maximum d’informations d’une page numérisée, dont évidemment la transcription mais pas uniquement (illustrations, mise en page...), et reproduire cette opération sur des grandes quantités de documents. L'obtention de ces données, désormais cruciales pour concevoir les grands corpus nécessaires à la recherche en lettres, implique des besoins informatiques nouveaux et très importants.
Plutôt que de sous-traiter un besoin essentiel à des sociétés (semi-)privées offrant des conditions scientifiques et légales parfois insatisfaisantes, l'Université de Genève a décidé de proposer un service local a adapté à tous les besoins (du travail de fin d'études au projet FNS). Concernant la partie logiciel, le choix s’est porté sur eScriptorium [lien], une application en ligne proposant une solution intégralement open source, déjà mature d’un point de vue technique (plusieurs années de développement) et bénéficiant de soutiens internationaux (France, USA, Allemagne…) qui en garantissent la fiabilité et l'efficacité.
Concernant la partie matérielle, plutôt que d'investir uniquement pour cette infrastructure, il a été décidé d'avoir recours à un service partagé par la communauté universitaire de Genève, HPC [lien], qui répond parfaitement aux nouveaux besoins de la Faculté des lettres. Ce service permet de fournir la puissance de calcul nécessaire pour l'entraînement de modèles, de garantir sur le long terme cette puissance de calcul grâce au renouvellement constant du parc informatique d'HPC, et enfin de s'adapter parfaitement à la demande en laissant à disposition des autres chercheurs et chercheuses les machines pendant les périodes de faible demande et en mobilisant plus de machines en cas de forte demande.
L'outil final devrait être inclus dans l’offre du Portail DH de l’UNIGE, qui dispose déjà d’éléments d’infrastructure permettant d’envisager une articulation intelligente de ses outils pour les chercheurs.ses : un serveur IIIF qui sert des documents numérisés en format image, une instance de TEI Publisher pour la publication de documents (édition et corpus) en TEI.
PUBLICATIONS
Sélection d'articles liés au projet
- Simon Gabay, Ariane Pinche, Peter Nahon, Alix Chagué, Pauline Jacsont, et al.. Lire avant de faire lire. Humanités numériques, 2025, 12. 〈hal-05431021〉
- Simon Gabay, Tobias Hodel, Ronald Sluijter, Élodie Paupe, Jean-Claude Rebetez, et al.. Transcribing Western modern manuscripts (1500-2020). DH 2025 - Digital Humanities conference, Alliance of Digital Humanities Organizations (ADHO), Jul 2025, Lisbon, Portugal. 〈hal-05063299〉
- Simon Gabay, Ariane Pinche, Kelly Christensen, Jean-Baptiste Camps. SegmOnto: A Controlled Vocabulary to Describe and Process Digital Facsimiles. Journal of Data Mining and Digital Humanities, 2024, 〈10.46298/jdmdh.12689〉. 〈hal-04343404v2〉
- Thibault Clérice, Ariane Pinche, Malamatenia Vlachou-Efstathiou, Alix Chagué, Jean-Baptiste Camps, et al.. CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond. 2024 International Conference on Document Analysis and Recognition (ICDAR), 2024, Athens, Greece. pp.174-194, 〈10.1007/978-3-031-70543-4_11〉. 〈hal-04453952〉
- Sonia Solfrini, Simon Gabay, Maxime Humeau, Ariane Pinche, Pierre-Olivier Beaulnes, et al.. Océriser les imprimés du XVIe siècle en langue française : le cas d'un corpus romand en caractères gothiques. Humanistica 2024, Association francophone des humanités numériques, May 2024, Meknès, Maroc. 〈hal-04555002〉
- Simon Gabay, Thibault Clérice, Christian Reul. OCR17: Ground Truth and Models for 17th c. French Prints (and hopefully more). Journal of Data Mining and Digital Humanities, 2023, 〈10.46298/jdmdh.6492〉. 〈hal-02577236v2〉
- Pauline Jacsont, Elina Leblanc. Impact of Image Enhancement Methods on Automatic Transcription Trainings with eScriptorium. Journal of Data Mining and Digital Humanities, 2023, Historical Documents and automatic text recognition, 〈10.46298/jdmdh.10262〉. 〈hal-03831686v4〉
- Ariane Pinche, Kelly Christensen, Simon Gabay. Between automatic and manual encoding: Towards a generic TEI model for historical prints and manuscripts. TEI 2022 conference : Text as data, Sep 2022, Newcastle, United Kingdom. 〈10.5281/zenodo.7092214〉. 〈hal-03780302〉
- Juliette Janes, Ariane Pinche, Claire Jahan, Simon Gabay. Towards automatic TEI encoding via layout analysis. Fantastic future 21, 3rd International Conference on Artificial Intelligence for Librairies, Archives and Museums, AI for Libraries, Archives, and Museums (ai4lam), Dec 2021, Paris, France. 〈hal-03527287〉
- Simon Gabay, Jean-Baptiste Camps, Ariane Pinche, Claire Jahan. SegmOnto: common vocabulary and practices for analysing the layout of manuscripts (and more). 1st International Workshop on Computational Paleography (IWCP@ICDAR 2021), Sep 2021, Lausanne, Switzerland. 〈hal-03336528〉