Recherche

FoNDUE - Une infrastructure HTR pour Genève

escriptorium.jpeg

Projet

L’HTR (​Handwritten Text Recognition​), aussi appelé OCR (​Optical character recognition​), devient un besoin de plus en plus urgent des équipes de l’UNIGE. L’enjeu est le suivant : extraire rapidement et efficacement un maximum d’informations d’une page numérisée, dont évidemment la transcription mais pas uniquement (illustrations, structure...), et reproduire cette opération sur des grandes quantités de pages.

Plutôt que de sous-traiter un besoin essentiel à des sociétés (semi-)privées dans des conditions scientifiquement insatisfaisantes, nous proposons donc de préparer le terrain pour un service local et gratuit. Le choix s’est porté sur ​eScriptorium, une application en ligne proposant une solution intégralement ​open source​, déjà mature d’un point de vue technique (plusieurs années de développement), bénéficiant de soutiens internationaux (France, USA, Allemagne…) qui en confirment l’intérêt et la solidité.

L'outil final devrait être inclus dans l’offre du Portail DH de l’UNIGE, qui dispose déjà d’éléments d’infrastructure permettant d’envisager une articulation intelligente de ses outils pour les chercheurs.ses : un serveur IIIF qui sert des documents numérisés en format image, documents eux-mêmes associés à des métadonnées au format RDF (Fedora), entre lesquels il est pertinent de fournir l’interface qui permet de récupérer le contenu des documents, de le décrire, de l’associer à des entités nommées elles-mêmes répertoriées dans Fedora, avant de l’analyser.

Equipe

Le projet FoNDUE (FOrmes Numérisées et Détection Unifiée des Écritures) est dirigé par S. Gabay. Il bénéficie de financements de la faculté des lettres et de la COINF et du soutien de la chaire d'humanités numériques de Genève [lien]. Le développement est assuré par la cellule d'appui au calcul scientifique de l'UniGE, dirigée par Jean-Luc Falcone [lien].

La réalisation de ce projet se fait en contact étroit avec les équipes des projets Scripta [lien] et CREMMA [lien].