Remplir le DMP du FNS

Un plan de gestion des données, Data Management Plan en anglais (DMP), est un document formel qui présente la manière dont les données d'une recherche seront manipulées durant et après un projet de recherche.

La plupart des organismes de financement exigent dès à présent la soumission d'un DMP lors de toute demande de subvention. Le Fond national suisse (FNS) introduit cette exigence pour le prochain appel à projets en automne 2017.

Data Management Plan du FNS

Les candidats à une subvention du  FNS doivent remplir le formulaire du DMP directement sur leur compte mySNF. Pour vous faciliter la tâche, nous vous présentons ici les 12 questions (un formulaire imprimable avec les commentaires est également disponible) et des exemples de réponses provenant de sources différentes [1,2].

1 Collecte de données et documentation

1.1 Quelles données allez-vous collecter, observer, générer ou réutiliser ?

Questions que vous pourriez envisager :
- Quels type, format et volume  de données allez-vous collecter, observer, générer ou réutiliser ?
- Quelles données existantes (les vôtres ou celles d'un tiers) réutiliserez-vous ?

Exemple de réponse

This project will work with and generate three main types of raw data.

1. Images from transmitted-light microscopy of giemsa-stained squashed larval brains.
2. Images from confocal microscopy of immunostained whole-mounted larval brains.
3. Western blot data.

All data will be stored in digital form, either in the format in which it was originally generated (i.e. Metamorph files, for confocal images; Spectrum Mill files, for mass spectra with results of mass spectra analyses stored in Excel files; tiff file s for gel images; Filemaker Pro files for genetics records), or will be converted into a digital form via scanning to create tiff or jpeg files (e.g. western blots or other types of results).

Measurements and quantification of the images will be recorded in spreadsheets. Micrograph data is expected to total between 100GB and 1TB over the course of the project. Scanned images of western blots are expected to total around 1GB over the course of the project. Other derived data (measurements and quantifications) are not expected to exceed 10MB.

1.2 Comment les données seront-elles collectées, observées ou générées ?

Questions que vous pourriez envisager :
- Quels standards, méthodologies et processus d'assurance de la qualité utiliserez-vous ?
- Comment allez-vous organiser vos fichiers et gérer le contrôle des versions ?

Exemple de réponse:

All samples on which data are collected will be prepared according to published standard protocols in the field. Files will be named according to a pre-agreed convention. The dataset will be accompanied by a README file which will describe the directory hierarchy and file naming convention.

Each directory will contain an INFO.txt file describing the experimental protocol used in that experiment. It will also record any deviations from the protocol and other useful contextual information.

Microscope images capture and store a range of metadata (field size, magnification, lens phase, zoom, gain, pinhole diameter etc.) with each image.

This should allow the data to be understood by other members of our research group and add contextual value to the dataset should it be reused in the future.

1.3 Quelles documentation et métadonnées allez-vous fournir avec les données ?

Questions que vous pourriez envisager :
-  Quelles informations sont nécessaires aux utilisateurs (ordinateurs ou humains) pour lire et interpréter les données dans le futur ?

- Comment allez-vous générer cette documentation ?

- Quels standards de la communauté (s'il y en a) seront utilisés pour annotés les (méta)données ?

Exemple de réponse :

Metadata will be tagged in XML using the Data Documentation Initiative (DDI) format. The codebook will contain information on study design, sampling methodology, fieldwork, variable-level detail, and all information necessary for a secondary analyst to use the data accurately and effectively.

It will be the responsibility of each researcher to annotate their data with metadata, and it will be the responsibility of the Principal Investigator to check weekly (during the field season, monthly otherwise) with all participants to assure data is being properly processed, documented, and stored.

All the datasets produced by the project will be published under a GNU licence.

2 Questions éthiques, juridiques et de sécurité

2.1 Comment les problèmes éthiques seront-ils abordés et traités ?

Questions que vous pourriez envisager :
- Quelle est la norme de protection pertinente pour vos données ? Êtes-vous liés par un accord de confidentialité ?
- Avez-vous l'autorisation nécessaire pour obtenir, traiter, préserver et partager les données ? Les personnes dont vous utilisez les données ont-elles été informées ou ont-elle donné leur consentement ?
- Quelles méthodes utiliserez-vous pour assurer la protection des données personnelles ou sensibles ?

Exemple de réponse 1 :

Les données à caractère personnel seront anonymisées avant partage et diffusion selon les recommandations de la CNIL.

Exemple de réponse 2 :

This project will generate data designed to study the prevalence and correlates of DSM III-R psychiatric disorders and patterns and correlates of service utilization for these disorders in a nationally representative sample of over 8000 respondents. The sensitive nature of these data will require that the data be released through a restricted use contract.

2.2 Comment l'accès et la sécurité aux données seront-ils être gérés ?

Questions que vous pourriez envisager :
- Quelles sont les principales préoccupations concernant la sécurité des données, quels sont les niveaux de risque et quelles mesures sont mises en place pour gérer les risques de sécurité ?
- Comment allez-vous régler les droits d'accès aux données/les autorisations pour assurer la sécurité des données ?
- Comment les données personnelles et sensibles seront-elles traitées pour assurer un stockage et un transfert de données sécurisés ?

Exemple de réponse pour les utilisateurs du NAS :

Nos données sont stockées sur le NAS académique géré par le service informatique de l'UNIGE (DiSTIC). L'accès aux données est limité aux ayants droits (authentification centrale). Le chef du laboratoire propriétaire de cet espace-disque gère lui-même les accès, avec possibilité d'inscrire des utilisateurs supplémentaires.

2.3 Comment traiterez-vous les droits d'auteur et les droits des droits de propriété intellectuelle ?

Questions que vous pourriez envisager :
- Qui sera le propriétaire des données ?
- Quelles licences seront appliquées aux données ?
- Quelles restrictions s'appliquent à la réutilisation de données tierces ?

Eléments de réponses :

Les données de la recherche qui sont produites par les collaborateurs de l’Université dans le cadre de l’exercice de leur fonction sont la propriété de l’institution.

Lorsque les données sont produites en partenariat avec un tiers, il est alors fortement recommandé de formaliser en amont du projet de recherche et avec toutes les parties concernées un accord sur l’ utilisation des données de la recherche. A défaut d’un tel accord conclu en amont, le chercheur de l’Université et le tiers devront s’entendre au sujet de l’utilisation des données.

Lorsque le chercheur souhaite utiliser des données produites par un tiers, il doit se conformer à la licence d’utilisation ou, en l’absence d’une telle licence, requérir le consentement préalable du tiers.

Si un chercheur souhaite transférer à une entreprise, en dehors d’un accord de recherche existant, des données de recherche qui peuvent représenter un intérêt commercial, il peut contacter le service Unitec de  transferts de technologies et compétences qui pourra répondre à toutes ses questions et lui fournir une aide dans la rédaction et la négociation des éventuels contrats réglant les modalités de transfert et de rétribution de l’Université.

De manière générale, et dans le cadre de sa mission de développement et de partage des connaissances, l’Université encourage la libre diffusion des données et des résultats de la recherche, dans le respect des droits et devoirs des parties (gestion des données personnelles ou sensibles, par exemple). Une licence doit être attribuée aux données qui peuvent être partagées afin de clarifier les conditions associées à l’utilisation et au transfert éventuel à des tiers de ces données. Les licences CreativeCommons, par exemple CC0 ou CC-BY, sont des choix courants recommandés. Pour toute question sur ces licences, l’équipe Research Data est à disposition.

Un arbre de décision permettant le choix de la bonne licence vous est proposé.

3 Stockage et préservation des données

3.1 Comment vos données seront-elles stockées et sauvegardées pendant la recherche ?

Questions que vous pourriez envisager :
- Quelle est votre capacité de stockage et où seront stockées vos données ?
- Quelles sont les procédures de sauvegarde ?

Exemple de réponse pour les utilisateurs du NAS

Nos données sont stockées sur le NAS académique géré par le service informatique de l'Université de Genève - la Division du système et des technologies de l'information et de la communication (DiSTIC). Ce NAS académique respecte les protocoles et les meilleures pratiques en la matière afin d'assurer une sécurité, une intégrité et une disponibilité maximale. Il s'étend sur deux lieux physiques distincts (UniDufour et Campus Biotech) et effectue de manière standard et automatique un snapshot (copie instantanée de l'état des fichiers) tous les 4 heures, avec une rétention des copies de 6 semaines. 

3.2 Quel est votre plan de préservation des données ?

Questions que vous pourriez envisager :
- Quelles procédures seraient utilisées pour sélectionner les données à préserver?
- Quels formats de fichier seront utilisés pour la préservation?

Exemple de réponses:

Nous conserverons les données pendant 10 ans sur les serveurs de l'université et les déposerons également dans une base de données appropriée les archives de données à la fin du projet (voir la section 4.1 ci-dessous).

Dans la mesure du possible, nous stockerons les fichiers dans des formats d'archivage ouverts, par exemple des fichiers Word convertis en PDF-A ou de simples fichiers texte encodés en fichiers UTF-8 et Excel convertis en CSV. Dans le cas où cela n'est pas possible, nous inclurons des informations sur le logiciel utilisé et son numéro de version.

4 Partage et réutilisation des données

4.1 Comment et où les données seront-elles partagées ?

Questions que vous pourriez envisager :
- Sur quel dépôt envisagez-vous de partager vos données?
- Comment les utilisateurs potentiels découvriront-ils vos données?

Exemples de réponse

Ex. 1:

The project data will be stored in the Swiss national repository developed by the University of Geneva within the Data Life Cycle Management (DLCM) project, which will be operational in the course of 2019. This will ensure data archiving and sharing is fully compliant with FAIR principles.

Ex. 2:

Datasets from this work which underpin a publication will be deposited in Enlighten: Research Data, the University of Glasgow’s institutional data repository, and made public at the time of publication. Data in the repository will be stored in accordance with funder and University data policies. Files deposited in Enlighten: Research Data will be given a Digital Object Identifier (DOI) and the associated metadata will be listed in the University of Glasgow Research Data Registry and the DataCite metadata store. The retention schedule for data in Enlighten: Research Data will be 10 years from date of deposition in the first instance, with extensions applied to datasets which are subsequently accessed. This complies with both University of Glasgow guidance and funder policies.

Enlighten: Research Data is backed by commercial digital storage wich is audited on a twice yearly basis for compliance with the ISO27001 Information Security Management standard.

The DOI issued to datasets in the repository can be included as part of a data citation in publications, allowing the datasets underpinning a publication to be identified and accessed.

Metadata about datasets held in the University Registry will be publicly searchable and discoverable and will indicate how and on what terms the dataset can be accessed.

4.2 Existe-t-il des limitations nécessaires pour protéger les données sensibles ?

Questions que vous pourriez envisager :
- Dans quelles conditions les données seront-elles mises à disposition (date de diffusion des données, motif de retard s'il y a lieu)?

Exemple de réponses 1:

Astronomical data will be diffused but under an embargo of one year for priority of exploitation reasons.

Les données astronomiques sont destinées à être diffusées mais bénéficient d’une durée d’embargo d’un an pour priorité d’exploitation.

Exemple de réponses 2:

Personal data will be anonymized before diffusion based on the recommendations from CNIL.

Les données à caractère personnel seront anonymisées avant partage et diffusion selon les recommandations de la CNIL.

Exemple de réponses 3:

Data will be made available under Creative Commons License CC-BY.

4.3 Je choisirai des dépôts numériques conformes aux principes de données FAIR. [CHECK BOX]

Vous pouvez trouver des dépôts certifiés sur le catalogue des dépôts Re3data.org

4.4 Je choisirai des dépôts numériques gérés par une organisation à but non lucratif. [RADIO BUTTON yes/no]

--> Si la réponse est non : “Explain why you cannot share your data on a non-commercial digital repository.”