Projets de la chaire

Gallic(orpor)a - extraction, annotation et diffusion de l'information textuelle et visuelle en diachronie longue

Notre projet propose de consolider et d'appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires. Au delà de la simple extraction de texte en masse, nous améliorerons les jeux de données d'entraînement pour l'apprentissage machine, les outils et les modèles déjà existants pour l'extraction, l'annotation et la diffusion de données richement annotées provenant des collections de la Bibliothèque nationale de France (BnF).

Equipe

Le projet est porté par Benoît Sagot, Rachel Bawden, Pedro Javier Ortiz Suárez de l'équipe Almanach de l'INRIA [lien], Ariane Pinche [lien] et Jean-Baptiste Camps [lien] de l'Ecole nationale des chartes, et Simon Gabay de l'UniGE [lien].