10 novembre 2022 - Jacques Erard

 

Vie de l'UNIGE

Dix térabytes de données de recherche en libre accès sur les datacenters de l’UNIGE

Les hautes écoles suisses sont désormais équipées pour relever les défis de la science ouverte, même si elles avancent en ordre dispersé. Le point de la situation à l’UNIGE, cinq ans après la décision du FNS de lier financement des projets et accès aux données de recherche.

 

 

datacenter-J2.jpg

Illustration: Adobestock


Le mouvement en faveur d’une science ouverte et du partage des données de recherche a conduit les universités à mettre en place des infrastructures informatiques pour assurer l’accessibilité et la pérennité des données. Cette évolution a été accélérée en 2017 par la décision du Fonds national suisse de la recherche scientifique (FNS) de rendre obligatoire, lors de chaque requête de financement, un plan de gestion spécifiant de quelle manière cette manne serait conservée, documentée et partagée.

 

À l’Université de Genève, cette démarche s’est traduite par la mise sur pied d’un centre de données – là où les données sont stockées – couplé à un équipement de calcul à haute performance (high performance computing, HPC) pour le traitement dynamique de l’information. Le service numérique Yareta a par ailleurs été installé pour permettre le téléversement, la gestion, le partage et la préservation sur le long terme des données de recherche. Il constitue le pendant de l’Archive ouverte qui rassemble les publications scientifiques et les thèses des chercheurs/euses de l’institution et qui sont stockées dans les mêmes datacenters. Ce service a bénéficié, dans un premier temps, du projet DLCM (Data Life Cycle Management) financé par swissuniversities, puis d’un projet de loi cantonal voté en 2017 et doté de 15 millions de francs, prolongé jusqu’en 2024.

Plus de trois ans après sa mise en service, Yareta comptabilise d’ores et déjà quelque 10 terabytes de données téléversées, réparties dans 620 archives. La taille moyenne d’une archive est d’environ 26 gigabytes. Du point de vue de la consultation, environ 30 térabytes ont été téléchargés. «Les données sont très hétéroclites, précise Hugues Cazeaux, ingénieur en développement responsable de l’infrastructure. Cela va des humanités numériques à la médecine, en passant par l’archéologie, la chimie ou l’imagerie par satellite.»

 

Autonomie des chercheurs/euses

L’infrastructure s’accompagne d’un volet formation et conseils, afin de mettre en place de bonnes pratiques d’archivage et de rendre les chercheurs/euses le plus autonomes possible. La solution retenue a l’avantage de conserver l’organisation mise en place par le chercheur ou la chercheuse. Les journaux scientifiques conditionnant dorénavant la publication des articles au dépôt des données en libre accès, Yareta permet de générer des DOI (le système de référencement universel des publications scientifiques) et les chercheurs/euses ont la possibilité de réserver leur DOI et de le communiquer aux éditeurs avant de déposer leurs données.

La plateforme Yareta est basée sur la technologie open source DLCM qui respecte le modèle OAIS (norme ISO 14721 définissant les concepts d’un système d’archivage électronique). Elle accepte tous les formats de données mais recommande ceux préconisés par la Librairie du Congrès américain, afin d’assurer la pérennité de conservation des fichiers des archives. Yareta est par ailleurs labélisée FAIR – pour «facilement trouvable, accessible, interopérable et réutilisable» – une norme internationale elle aussi.

Enfin, du point de vue de la sécurité, deux copies des données existent actuellement dans deux bâtiments, et une troisième est envisagée en collaboration avec la HES-SO Genève. Hormis les back-up standards pour ce type de serveurs, des contrôles réguliers sont menés pour vérifier que chaque archive n’a pas subi d’altérations. Trois niveaux d’accès ont été prévus. Plus de 90% des données sont publiques et répondent ainsi aux exigences du FNS. Parmi les 10% restantes, une partie est soumise à authentification et l’autre constitue une archive fermée, accessible uniquement sur demande.

 

Contraintes juridiques

Au vu de la taille de la Suisse, n’aurait-il pas été souhaitable de concevoir une unique solution au niveau national? Lorsqu’il a pris la tête du projet DLCM soutenu par swissuniversities en 2015, Pierre-Yves Burgi, qui dirige actuellement le groupe de recherche et information scientifique au sein de la Division du système et des technologies de l’information et de la communication, avait en effet en tête une infrastructure fédérant l’ensemble des hautes écoles. Aujourd’hui, toutefois, force est de reconnaître que le paysage s’est fragmenté. Que s’est-il passé? «Le facteur de proximité a repris de la valeur du fait que les centres de calcul HPC, qui traitent des quantités énormes de données, sont nettement plus performants lorsqu’ils sont proches de ces dernières, explique Pierre-Yves Burgi. Certaines habitudes, par domaine scientifique, se sont également instaurées, en privilégiant telle ou telle infrastructure [lire encadré ci-dessous]. Par ailleurs, des contraintes juridiques peuvent aussi entrer en ligne de compte. À Genève, par exemple, la loi oblige à ce que les archives patrimoniales soient déposées sur des serveurs situés sur le territoire du canton. Enfin, des considérations financières peuvent intervenir dans le choix. À ce titre, Yareta est la solution actuellement la meilleur marché en Suisse.»

À noter que Swisscovery, la nouvelle plateforme nationale rassemblant les informations scientifiques des bibliothèques, offre la possibilité d’un point d’entrée unique aux métadonnées de toutes les archives déposées sur les différentes infrastructures implantées par les hautes écoles.

Pour en savoir plus : site e-research UNIGE

Les principales plateformes de données de recherche en Suisse

Yareta a été développée par l’Université de Genève sur la base d’un financement de swissuniversities puis de l’État de Genève. Yareta est une plateforme généraliste compatible pour tous les types de données et de domaines scientifiques. Les datacenters sont à Genève.

OLOS est une association fondée par la Haute école de gestion de Genève, la HES-SO et l’Université de Fribourg. Elle a été rejointe par la Haute école pédagogique de Fribourg et la Haute école spécialisée bernoise. L’UNIGE, l’EPFL, l’ETHZ et le consortium Switch figurent parmi ses partenaires. Elle se présente comme une solution généraliste pour tous types de données. OLOS est basée sur une technologie similaire à celle de Yareta et a bénéficié du financement de swissuniversities. Les datacenters sont à Zurich et à Lausanne.

SwissUbase a été développée à partir des réalisations de FORS, le centre de compétences suisse en sciences sociales basé à l’Université de Lausanne. SwissUbase offre des solutions d’archivage multilingues et spécifiques à chaque discipline. Elle est issue d’un partenariat entre l’Université de Lausanne, via FORS, l’Université de Zurich et le consortium Switch.

DaSCH est hébergée à l’Université de Bâle. Elle a été spécifiquement conçue pour les données en sciences humaines et représente la Suisse au sein du Consortium européen Digital Research Infrastructure for the Arts and Humanities.

Zenodo a été développée par le CERN, avec un financement européen, dans le but de promouvoir la science ouverte. Elle vise la communauté internationale des chercheurs/euses de toutes les disciplines et propose des services gratuits, avec une limitation cependant sur le volume des données déposées (50 GB maximum par archive). Les données sont préservées sur des serveurs en Suisse et en Hongrie.

 

Vie de l'UNIGE