Le dépôt cantonal des données de recherche Yareta

Du stockage des données à leur préservation

En accord avec les politiques nationales et internationales de la recherche, les bailleurs de fond demandent aujourd’hui non seulement à ce que les résultats de la recherche soient disponibles en libre accès (Open Access to publication), mais aussi que les données qui ont permis d’obtenir ces résultats soient, dans la mesure du possible, mises à la disposition du public (Open Research Data).

Pour faire face à ces nouvelles exigences, les institutions académiques développent leur infrastructure numérique. En 2008, l’Université de Genève a mis en service l’Archive ouverte : le digital repository qui permet la consultation et la mise à disposition des publications de ses chercheuses et chercheurs. C’est dans cette même perspective, qu’en juin 2019, the Research Data Repository « Yareta », qui permet l’archivage et le partage des données de recherche, est ouvert à l’ensemble à la communauté scientifique genevoise.

La solution de préservation à long-terme implémentée dans Yareta a été initiée et développée dans le cadre du projet national DLCM (dlcm.ch) financé par swissuniversities. Dès janvier 2018, le Programme cantonal « Infrastructures et services numérique pour la recherche » (PL 12146) est venu accélérer le mise en œuvre de la solution grâce à un apport financier supplémentaire. C’est dans ce contexte que la solution DLCM est déployée à l’échelle genevoise et prend la forme du nouveau service d’archivage numérique Yareta.

Feuille de route

Le développement de la solution numérique de préservation à long terme des données de recherche est mené selon une approche Agile. Cette approche se caractérise principalement par de nombreuses itérations et une grande proximité avec les utilisateur-trice-s. La planification des tâches est donc régulièrement réorientée et affinée en fonction des besoins des chercheur-euse-s et des opportunités (p.ex. cas d’utilisation).

Développement et intégration: Tâches significatives

La phase de conception ainsi que les premières étapes de développement de la solution ont été menée dans le cadre du projet DLCM entre 2015 et 2018. Cette page se concentre sur la période 2018-2020.

Phase 1 | janvier 2018 - juin 2018
Développement et mise en production de l’architecture d’archivage

Implémentation du modèle de préservation OAIS (Open Archival Information System, ISO 14721) qui garantit la préservation des données à long terme
Implémentation du protocole OAI–PMH (Open Archive Initiative Protocol for Metadata Harvesting) qui permet l’échange et l’interopérabilité des métadonnées
Implémentation du DataCite Metadata Schema et du DOI® System (Digital Object Identifier, ISO 26324) qui permet l’identification des ressources
Intégration à SWITCHedu-id et SWITCHaai qui permet une authentification sécurisée de l’utilisateur-trice
Implémentation du modèle DLCM pour la gestion sécurisée des espaces de préservation (unités organisationnelles, niveaux d’accès, rôles, cf. DLCM documentation)
Développement d’une fonctionnalité pour l’évaluation du degré de préservation des formats de fichier (Data Compliance Level)
Intégration de divers outils qui facilitent l’automatisation de fonctionnalités, notamment :

pour l’import massif de datasets (batch);
pour l’identification des formats de données (FITS);
pour la réplication, le contrôle et la réparation des archives (file fixity check, data Integrity, checksums calculation, virus scanning…).

Phase 2 | juin 2018 – décembre 2020
Amélioration de la performance, de l’utilisabilité et de l’ergonomie du portail web

Migration du portail dans le framework Angular qui offre plus de performance et de réactivité aux différents supports (Responsiveness)
Ajouts de fonctionnalités et amélioration des aspects ergonomiques de l’interface utilisateur suite aux retours de chercheur-euse-s (User eXperience | UX)
Intégration à ORCID qui permet la valorisation des sets de données de recherche à travers leur visibilité et leur attribution
Intégration de modules disciplinaires/méthodologiques de visualisation, notamment :
- un module IIIF (International Image Interoperability Framework) pour la visualisation des images ;
- un module pour la visualisation 3D des molécules ;
- d’autres modules pourront être intégrés selon les besoins des chercheur-euse-s.
Renforcement et implémentation de la politique de préservation (réplications flexibles, technologies de stockage variées, géolocalisation et suppression des archives à l’issue de la période de rétention…)
Intégration de la préservation des codes informatiques à la solution (Software Preservation)
Intégration de la solution de préservation avec différents systèmes d’information de laboratoire selon les demandes des chercheurs-euses
Intégration de la solution de préservation avec le Portail Digital Humanities pour assurer un archivage pérenne des données RDF (Resource Description Framework) exploitées dans le Portail

Une architecture ouverte et modulaire (Burgi et al., 2019)

supporte des standards internationaux et utilise des services Web RESTful qui garantissent l’interopérabilité des données (OAIS, OAI–PMH, DataCite…)
valorise la recherche grâce à l’identification et l’attribution des sets de données (DOI® System, ORCID)
répond aux exigences du Fonds National Suisse : non-commerciale et en accord avec les principes FAIR (SNSF Open Research Data Policy)
générique, car compatible avec tous les formats de fichiers en vigueur dans les différentes disciplines scientifiques
flexible grâce à l’intégration de modules disciplinaires et aux systèmes d’information des laboratoires
implantée sur sol suisse

Contact

eresearch(at)unige.ch