Volet numérique
Information utiles
Le volet numérique du projet SETAF entend publier l’édition critique numérique d'un ouvrage (Les Faits), un catalogue raisonné de ses gravures et un corpus annoté de textes de l’époque de la Réforme, comprenant des textes écrits et réédités par Guillaume Farel (1489-1565) et son cercle. Le corpus primaire comprend les ouvrages publiés par les imprimeurs Pierre de Vingle et Jean Michel, actifs respectivement dans les années 1525-1535 et 1538-1545, entre Genève et Neuchâtel. Ce corpus numérique permettra de développer des outils d’analyse textuelle spécifiques pour la Réforme francophone et des modèles pour le traitement automatique des imprimés du XVIe siècle en langue française. Une importante dimension numérique est donc prévue pour la réalisation de ce projet, avec l'océrisation de nombre d’imprimés d’une part et l’exploitation computationnelle de ces données d’autre part.
Un site consacré à ce volet numérique est en cours de construction.
- Page GitHub du projet : https://github.com/SETAFDH.
- Une première version de notre guide de transcription, pour les imprimés français du XVIe siècle en caractères gothiques, est disponible en ligne : https://hal.science/hal-04281804.
- Notre modèle d'OCR, CATMuS Gothic Print, est disponible sur Zenodo : 10599911.
- Notre modèle de normalisation, FreEM SemiD norm model, est disponible sur Zenodo : 15551750.
Publications et activités
- Colloque TALN, juillet 2025
Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira, Pierre-Olivier Beaulnes. « Normaliser le moyen français : du graphématique au semi-diplomatique », actes de CORIA-TALN-RJCRI-RECITAL 2025, juillet 2025, Marseille, France. 〈hal-05137564〉.
- Colloque Humanistica, mai 2024
Sonia Solfrini, Simon Gabay, Maxime Humeau, Ariane Pinche, Pierre-Olivier Beaulnes, Aurélia Marques Oliveira, Geneviève Gross, Daniela Solfaroli Camillocci. « Océriser les imprimés du XVIe siècle en langue française : le cas d’un corpus romand en caractères gothiques », Humanistica 2024, Association francophone des humanités numériques, mai 2024, Meknès, Maroc. 〈hal-04555002〉.
- Séminaire SETAF, 9 février 2024
Océriser un corpus en caractères gothiques : défis, outils et premiers résultats, par Sonia Solfrini, Geneviève Gross et Pierre-Olivier Beaulnes.
Dans ce séminaire, l'équipe du projet SETAF présentera le travail d'océrisation réalisé jusqu'à présent sur un corpus d'imprimés romands à l'époque de la Réforme. Plusieurs outils sont requis pour l'OCR (Optical Character Recognition), qui permet d'extraire des textes de leurs fac-similés numériques, dont certains peuvent varier en fonction des caractéristiques des ouvrages. Pour répondre aux traits distinctifs de notre corpus primaire, constitué d'imprimés en gothique et en moyen français (1530-1540), nous avons créé des outils adaptés à ce type de données, notamment un guide de transcription et un modèle d'OCR. Ce travail peut intéresser d'autres projets de recherche visant à construire des bibliothèques numériques ou à effectuer des études computationnelles de textes.
- Colloque Humanistica, juin 2023
Sonia Solfrini, Geneviève Gross, Brigitte Roux, Nathalie Szczech, Pierre-Olivier Beaulnes, Aurélia Marques Oliveira, Daniela Solfaroli Camillocci. « Étudier le ‘groupe de Neuchâtel’ : De l'édition des Faits à un corpus numérique de la première Réforme romande », Humanistica 2023, Association francophone des humanités numériques, juin 2023, Genève, Suisse. 〈hal-04097381〉.