Visibiliser des données partagées

Étant donné le temps et les efforts importants investis dans la recherche mais aussi pour l’obtention des données, leur documentation, leur archivage et l’éventuel partage dans un data repository, leur donner de la visibilité est essentiel.

Différentes méthodes permettent d’améliorer la visibilité des données déposées dans un data repository. En voici quelques-unes, complémentaires :


 

1. Les rendre visibles dans la publication

Ajouter la référence du jeu de données directement dans la publication, par exemple dans la bibliographie, ou même dans une rubrique dédiée (« data statement ») est une bonne pratique.

a. Ajouter la référence du jeu de données dans la bibliographie

La référence du jeu de données devrait idéalement inclure les auteur-es du jeu de données, l’année de publication, le titre du jeu de données, le data repository où les données sont déposées, ainsi que d’autres informations essentielles comme l’URL ou le DOI pour y accéder. Cela donne par ex. :

Créateur (Année de publication). Titre [Data set]. Editeur ou plateforme d’hébergement. Identifiant unique. Version (si approprié). Consulté le (si approprié).

Exemple de citation de données

Pouliot-Laforte, A. (2021). Impairments and sagittal kinematics of the lower limbs of children with cerebral palsy [Data set]. Université de Genève, Yareta. https://doi.org/10.26037/yareta:ghvxtm3d2naenafsu6ungo2sny

Astuce: facilement citer des données

Certains data repositories, comme Yareta ou Zenodo, permettent facilement de générer la référence bibliographique correspondant au jeu de données et dans plusieurs styles de citations (APA, MLA, …) :

b. Ajouter une rubrique data availability statement

De plus en plus de revues proposent une rubrique ad hoc intitulée data statement ou data availability statement. Celle-ci permet de mettre en évidence la citation du jeu de données, mais aussi de la compléter avec des informations additionnelles, telles que : disponibilité sur demande, disponibilité contre signature d’un contrat d’utilisation, disponibilité restreinte avec précision des raisons pour cela, et bien d’autres encore. Concrètement, la structure est la suivante :

"The [data type, e.g. sequencing / interview / …] data that support the findings of this study/ generated and/or analysed during the current study are openly available/available upon request/upon signing of a data use agreement in the [NAME] repository at [URL / DOI / Accession number / Other persistent unique identifier]. (Suivi éventuellement de la référence pointant vers la bibliographie où vous aurez indiqué la citation complète: auteur-es du jeu de donnée, titre, etc. …)"

Exemples de Data Availability Statements
  • "The data that support the findings of this study are openly available in the Yareta repository at https://doi.org/10.26037/yareta:yqae72143d."
  • "Single-cell and bulk targeted sequencing data are accessible through the EGA database (https://www.ega-archive.org) under accession numbers EGAS00001006784 and EGAS00001006901, respectively. Other data are available upon reasonable request to the principal investigator."
Astuce: trouver de l'inspiration ou des modèles

Les instructions aux auteur-es proposées par les revues scientifiques comportent parfois des exemples standardisés afin d’accompagner et de structurer la rédaction du data statement. En voici quelques exemples proposés par SpringerNature, Cambridge University Press, ou Taylor & Francis.

Astuce: Résever un DOI à l'avance

Il est possible de réserver un DOI, pour l’intégrer au data statement quand bien même le dépôt n’a pas encore été finalisé. Yareta ou Zenodo, par exemple, offrent cette possibilité, permettant de d'abord soumettre le manuscrit à la revue, puis de prendre ensuite le temps de finaliser le dépôt des données.

2. Créer des liens entre différentes plateformes

En plus de ce qui précède - ou alors si justement la référence vers les données n’a pas été intégrée à l’article, dans la bibliographie ou dans un data statement - il est aussi possible de créer ou renforcer ce lien entre les données et la publication après la sortie officielle de la publication. L’idée est ainsi de permettre aux personnes accédant aux données ou à la publication de facilement localiser la ressource liée.

a. Ajouter dans le data repository un renvoi vers la publication concernée.

Dans Yareta, sur la page d’édition des informations du dépôt, il faut renseigner le DOI de la publication dans le champ dédié « DOI référencé par ».

b. Là où la publication a été signalée, insérer également le renvoi vers les données

Si la publication est déposée dans l’Archive ouverte UNIGE, il est possible d’y indiquer où trouver les données associées dans l’étape 3 du dépôt/de l’édition de la publication, via le champ ad hoc « URL ou DOI du jeu de données ».

3. Mentionner les données dans les CVs et profils numériques

Enfin, même si aucune publication n’est issue de ce jeu de données, il reste possible de le signaler et de le mettre en valeur :

  • dans son profil ORCID, en ajoutant un élément « travail », type « jeu de données », soit manuellement, soit via son DOI;
  • dans son CV, dans une rubrique open science ou open data si elle existe, par exemple comme c’est le cas dans le (nouveau) format de CV en vigueur à la Faculté de Médecine;
  • dans un rapport de fin de projet, comme celui du FNS.

4. Publier un data paper

Un data paper est une publication décrivant un jeu de données et qui paraît dans une revue à comité de lecture. Ce type de publication peut également porter d’autre noms tels que data descriptor, dataset paper, database paper, etc.

Focalisé sur la description du jeu de données et ses informations techniques, le data paper ne contient cependant pas d’hypothèse de recherche, de méthodologie pour les confirmer/infirmer ou de conclusions à la suite de l’analyse de données. Le potentiel de réutilisation est cependant généralement mis en avant.

La figure ci-dessous présente la structure d’un data paper, ainsi que ses liens avec les données qu’il présente et visibilise.

Figure 1: Structure d'un data paper. Source: Windpouire Esther Dzale Yeumo, Dominique L'Hostis. Open Science. Gestion et partage des données de la recherche. Journée de Formation - URFIST Paris (22/01/2015) ; Mise à jour - Agropolis Montpellier (01/04/15), 2015, slide 108 (mise à jour 01/04/15). ⟨hal-02800107⟩

Il existe des revues (généralistes ou disciplinaires) dévolues uniquement à la publication de data papers, comme Gigascience ou Scientific Data. D’autres revues acceptent ce type de contributions parmi d’autres.

L’université d’Edinburg a compilé une liste de data journals. Le GBIF propose également une liste de revues publiant des data papers liés à la biodiversité.

Exemple de data paper

Li, K., Jiang, J., Qiu, L. et al. A multimodal MRI dataset of professional chess players. Sci Data 2, 150044 (2015). https://doi.org/10.1038/sdata.2015.44