Glossaire

Besoin d'une définition supplémentaire ? Écrivez-nous à researchdata-info(at)unige.ch

A

Anonymisation

Définition

L’anonymisation est une opération consistant à traiter des données de recherche contenant des informations personnelles ou sensibles dans le but de les rendre impossibles à attribuer directement ou indirectement à des sujets concernés, identifiés ou identifiables par ces données. L'anonymisation est un processus irréversible.

Pour aller pour loin:

Archivage des données de recherche

Définition

L'archivage des données de recherche signifie le versement de celles-ci sur une plateforme sécurisée dans une perspective de conservation à moyen-long terme. La durée de conservation varie d'une discipline à une autre mais le FNS recommande d’archiver les données de recherche pour une période minimale de 10 ans.

Il est important de distinguer l'archivage du stockage des données de recherche. En effet, ces deux actions ne poursuivent pas les mêmes objectifs et par conséquent il existe des solutions et des plateformes dédiées et spécifiques à chacune d'entre elles.

Pour aller pour loin:

C

Cahier de laboratoire électronique

Définition

Les cahiers de laboratoire électroniques (Electronic Laboratory Notebook / ELN) sont les équivalents numériques des cahiers de laboratoire traditionnels. De nombreux logiciels existent sur le marché.

Pour aller pour loin:

Citation des données

Définition

La citation des données signifie fournir une référence aux données, de la même manière que pour les publications telles que les articles, les rapports et les documents de conférence.

Pour aller pour loin:

Convention de nommage

Définition

Dans le contexte de l'organisation des fichiers et des données, les conventions de nommage sont des manières standardisées et systématiques de nommer les fichiers produits lors de la recherche afin d'en faciliter l'identification, notamment à l'aide de noms courts et descriptifs.

Une convention est particulièrement importante dans le cas de données gérées au sein d'une équipe ou d'un laboratoire.

Pour aller pour loin:

Creative Commons

Définition

Les licences Creative Commons ou CC sont un type de licences applicables aux œuvres, au sens de la loi sur le droit d'auteur (LDA), spécifiant les conditions pour leur réutilisation et leur distribution. Les Creative Commons proposent six licences permettant de répondre à des besoins spécifiques.

Ces licences peuvent être appliquées à presque n'importe quel type d'œuvre, par exemple : la musique, les bases de données, les photographies ou encore les ressources éducatives. Les seules catégories d'œuvres pour lesquelles CC ne recommande pas ses licences sont les logiciels et le matériel informatique.

Source : Creative Commons

Pour aller pour loin:

Cycle de vie des données

Définition

Le cycle de vie des données de recherche décrit les différentes étapes de vie à travers lesquelles évoluent les données de recherche, de leur création à leur archivage. Celui-ci peut être représenté de plusieurs façon, par exemple le UK Data Service divise ce cycle en 6 étapes::

  1. Planification de la création de données
  2. Collecte des données 
  3. Préparation et analyse des données 
  4. Publier et partage des données
  5. Préparer les données pour la préservation 
  6. Réutilisation des données.

Pour chacune d'entre elles, des actions et des processus peuvent être mis en place pour s'assurer que les données de recherche restent de qualité, intègres et en sécurité.

Source: UKDataService

D

Data Journal

Définition

Un data journal est un journal scientifique dédié à la publication de data papers.

Pour aller pour loin:

  • Lien
Data Management Plan (DMP)

Définition

Un plan de gestion des données, Data Management Plan en anglais (DMP), est un document formel qui présente la manière dont les données d'une recherche seront traitées durant et après un projet de recherche.

La plupart des organismes de financement exigent désormais la soumission d'un DMP lors de toute demande de subvention. Le Fonds national suisse (FNS) a introduit cette exigence depuis l'automne 2017.

Data Paper

Définition

Un data paper est un article scientifique dont le but premier est de décrire minutieusement un ou plusieurs jeux de données produits lors d'un projet de recherche, typiquement à l'aide de métadonnées et sans entrer dans l'analyse des jeux de données eux-mêmes.

Les data papers peuvent être publiés dans des "revues traditionnelles" ou dans des journaux dédiés appelés Data Papers et sont en principe revus par les pairs (peer-reviewed).

Source : Chavan, V., & Penev, L. (2011). The data paper: a mechanism to incentivize data publishing in biodiversity science. BMC bioinformatics12 Suppl 15(Suppl 15), S2. https://doi.org/10.1186/1471-2105-12-S15-S2 et IRDData 

Déclaration DORA

Définition

La déclaration DORA ou Déclaration de San-Francisco sur l'évaluation de la recherche (San Francisco Declaration on Research Assessment) est un texte publié en 2013 par l'American Society for Cell Biology et un groupe d'éditeurs de journaux scientifiques appelant à la remise en question et l'amélioration de l'évaluation de performances de la recherche, des revues scientifiques et des chercheurs/euses, notamment les indicateurs bibliométriques comme le Journal Impact Factor ou le H-Index.

Pour aller pour loin:

Dépôt de données

Définition

Un data repository, en français un dépôt de données, est un espace dédié au téléversement de données de recherche dans l'objectif de leur archivage et/ou de leur mise à disposition dans une perspective de transparence ou de réutilisation par des pairs.

Les repositories peuvent être ouverts ou fermés et être classés en 3 types principaux  :

  • génériques ou multidisciplinaires : ouverts à tous les types de données
  • disciplinaires : ouverts à des données issues un domaine/champ d'étude spécifique
  • institutionnels : gérés par une institution et ouverts à ses membres uniquement
DLCM

Définition

Le projet DLCM (Data Life-Cycle Management) ou projet national sur la gestion du cycle de vie des données de recherche a été lancé en 2015 sur mandat de swissuniversities par 8 universités partenaires suisses. Leur objectif est de proposer aux chercheurs et chercheuses des ressources pour les soutenir dans les multiples aspects de la gestion et l'archivage des données de recherche. 

Pour aller pour loin:

DOI

Définition

Les Digital Object Identifiers (DOI) sont un type d'identifiant persistant composé d'une chaîne de caractères alphanumériques. Ils visent à identifier de manière pérenne et univoque des objets numériques publiés comme des articles, mais aussi des jeux de données de recherche.

Sources : DataCite

Pour aller pour loin:

Données personnelles

Définition

"Les données personnelles sont toutes les informations qui se rapportent à une personne identifiée ou identifiable."
 
Données de recherche

Définition

Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

Source : OCDE

Données sensibles

Définition

"Les données sensibles sont une catégorie spécifique de données personnelles comportant des informations sur :

  1. les opinions ou activités religieuses, philosophiques, politiques ou syndicales
  2. la santé, la sphère intime ou l'appartenance à une race
  3. des mesures d'aide sociale,
  4. des poursuites ou sanctions pénales et administratives;"

Source : Loi fédérale sur la protection des données 1, art. 3, let. c

Droit d'auteur

Définition

"Le droit d’auteur protège les auteurs d’œuvres littéraires et artistiques. La protection porte sur la forme sous laquelle une idée est exprimée et non pas sur l’idée ou le concept en tant que tel. Le droit d'auteur s'étend donc aux expressions d'une œuvre et non pas aux contenus. À titre d’exemple, prenons l’article d’Einstein intitulé « Les fondements de la théorie générale de la relativité » publié dans les Annales de la physique. L'article est protégé par le droit d’auteur, mais la théorie de la relativité en soi peut être utilisée, à condition qu'on ne reprenne pas les mêmes mots que dans le texte original."

Source : Institut Fédéral de la Propriété Intellectuelle

E

ELN

Définition

Les cahiers de laboratoire électroniques (Electronic Laboratory Notebook / ELN) sont les équivalents numériques des cahiers de laboratoire traditionnels. De nombreux logiciels existent sur le marché.

Pour aller pour loin:

Embargo

Définition

Dans le cadre d'une démarche de diffusion du savoir, l'embargo est une période de délai de mise à disposition d'un produit de recherche en accès libre. Des embargos peuvent par exemple être demandés par des éditeurs pour se réserver l'exclusivité de la diffusion des publications concernées et ainsi rendre l'accès exclusif à des personnes étant abonnées à leurs services.

Pour aller pour loin:

  • Lien

F

FAIR (principes)

Définition

Les principes FAIR ont pour objectif de faire respecter des standards de partage des données pour assurer que les humains et les systèmes informatiques puissent facilement les trouver, les interpréter et les utiliser.

L'acronyme FAIR signifie :

  • FINDABLE : Les données et les documents supplémentaires ont des métadonnées suffisamment riches et un identifiant unique et persistant.
  • ACCESSIBLE : Les métadonnées et les données sont compréhensibles pour les humains et les machines. Les données sont déposées dans un référentiel fiable.
  • INTEROPÉRABLE : Les métadonnées utilisent un langage formel, accessible, partagé et s'appliquant à toutes les formes de représentation des connaissances.
  • RÉUTILISABLE : Les données et les collections ont une licence d'utilisation claire et fournissent des informations précises sur leur provenance.

Source : Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship.

Pour aller pour loin:

Format de fichier

Définition

Le format de fichier est la manière dont un logiciel encode les informations contenues dans un fichier. Pour chaque type de fichier (images, texte, audio, tableur etc.), un nombre conséquent de formats spécifiques sont disponibles.

Dans tous les cas, le format d'un fichier est identifiable à l'aide d'un suffixe précédé d'un point présent à la fin du nom de fichier.

Exemple : "contenu.txt" --> .txt indique qu'il s'agit d'un fichier texte.

On distingue deux types de formats de fichier :

  • Les formats ouverts ou libres, qui peuvent être utilisés par n'importe qui car les spécifications du fichier sont publiquement disponibles.
  • les formats propriétaires ou fermés, qui fonctionnent seulement avec le logiciel du fournisseur, et lorsque le logiciel n'est plus pris en charge, les fichiers dans ce format sont généralement illisibles.

Le format de fichier conditionne grandement l'accessibilité et la réutilisabilité potentielle des données de recherche. C'est pourquoi son choix doit être fait de manière éclairée et mûrement réfléchie.

Pour aller pour loin:

Formats libres

Définition

Les formats libres ou formats ouverts sont des fichiers encodés de façon transparente et dont les spécificités techniques sont publiques, accessibles et utilisables inconditionnellement. Ces formats sont interopérables c'est-à-dire qu'ils peuvent être ouverts et modifiés par tous les logiciels destinés à traiter le type du fichier (qu'il s'agisse de texte, d'audio ou d'images, etc.).

Les formats libres doivent être autant que possible privilégiés pour la préservation et le partage des données, car ils assurent la lisibilité, la ré-utilisabilité de ces fichiers dans le temps tout en les gardant indépendants d'une technologie unique.

Pour aller pour loin:

  • Lien
FNS (exigences du)

Définition

"Le FNS estime que le partage des données de recherche apporte une contribution essentielle à la recherche scientifique en termes d’'impact, de transparence et de reproductibilité. En plus d'une préparation et d'un archivage soigneux, le FNS est d'avis que les données de recherche doivent être partagées de manière aussi ouverte que possible.

Par conséquent, le FNS demande à tous les chercheuses et chercheurs qu'il finance :

  • d'archiver les données de recherche sur lesquelles ils ont travaillé et qu'ils ont produites durant leurs travaux,
  • de partager ces données avec d'autres chercheuses et chercheurs, à moins qu'ils/elles soient lié-e-s par des clauses légales, éthiques, de copyright, de confidentialité ou autres, et
  • de déposer leurs données et métadonnées dans des archives publiques existantes, dans des formats accessibles et réutilisables sans restriction par tout un chacun."

Source: FNS

Pour aller pour loin:

  • Lien

I

Identifiant persistant

Définition

Un identifiant persistant, dit aussi identifiant pérenne, est une chaîne de caractères ou/et de nombres utilisée pour identifier une ressource de façon unique, indépendamment de son emplacement et dans une perspective de long terme.

Les plus connus sont les : DOI, URI, ORCID et ARK.

Ces identifiants sont généralement structurés en 3 parties. Les DOI, par exemple DOI: 10.13097/archive-ouverte/unige:27916, sont structurés ainsi  :

  1. un préfixe correspondant au type d'identifiant utilisé
  2. la désignation de l'entité ayant attribué l'identifiant ("10.13097" pour l'UNIGE)
  3. le nom spécifique à la ressource ("archive-ouverte/unige:27916")

Sources : Espasandin et al. 2018 et Cevey & Raemy 2020

Pour aller plus loin :

J

Jeu de données

Définition

Un jeu de données (ou dataset en anglais) est "un ensemble cohérent de données produites dans le cadre d’un même projet, sur un même objet d’étude et/ou recueillies sur un même lieu. Toutes les données d’un dataset peuvent donc être décrites avec une majorité de métadonnées communes".

Source: IRDData

Pour aller pour loin:

  • Lien

L

Licences

Définition

Les licences sont des dispositions légales de la propriété intellectuelle. Ces licences visent à protéger une ressource en spécifiant les modalités de son utilisation notamment ses modalités d'accès, de diffusion et de réutilisation.

Pour aller pour loin:

LIMS

Définition

LIMS est un acronyme qui signifie Laboratory Information Management System, en français Système de gestion de l’information en laboratoire. Le LIMS fonctionne en étant "raccordé directement sur les instruments de mesure scientifiques (spectromètre, IRM, scanner ou microscope électronique) et en captant les données à la source via une interface et assurant leur gestion ainsi que leur traçabilité".

De nos jours, les LIMS sont combinés avec les ELN en une seule application, bien qu'historiquement ils aient été dévelopés indépendamment. Ces systèmes combinés permettent de prendre en charge l'entièreté du workflow du laboratoire à l'intérieur d'un unique outil.

Sources : DLCM et  Campus n°132

Pour aller pour loin:

M

Métadonnées

Définition

Les métadonnées (littéralement données à propos de données) sont des informations qui décrivent les caractéristiques basiques d'une donnée et ce, quel que soit son support (physique ou numérique). 

Par exemple :

  • Son/sa ou ses auteurs
  • Son contenu
  • Sa date de création
  • Le lieu de capture/de production
  • La raison pour laquelle les données ont été générées
  • Comment les données ont été créées

Ces différentes spécifications sont appelées des champs de métadonnées.

Les métadonnées viennent donc replacer les données dans leur contexte facilitant ainsi leur compréhension, leur traitement et leur potentielle réutilisation dans le futur.

Pour savoir quelles informations inclure dans des métadonnées, il est possible de s'appuyer sur des standards de métadonnées, c'est-à-dire des ensemble de champs spécifiques visant à décrire simplement des jeu de données, tels que le Dublin Core ou Data Cite.

Pour aller pour loin:

N

NAS académique UNIGE

Définition

Le NAS (Network Attached Storage) académique est un service d'espace de stockage destiné aux chercheuses et chercheurs de l'UNIGE. Il permet de stocker les données actives de la Recherche sur un équipement  facilement accessible, rapide et sécurisé (authentification et sauvegarde intégrée). Il est approprié aux données qui nécessitent d’être régulièrement consultées, exploitées, modifiées et partagées.

Pour aller pour loin:

O

OLOS

Définition

OLOS est une solution nationale pour traiter l'archivage, la conservation à long terme, la publication et l'accès des données de recherche à tous les établissements d'enseignement supérieur suisses. Cette solution est développée par le projet DLCM.

Source: OLOS

OpenAIRE-H2020

Définition

OpenAIRE (Open Access Infrastructure for Research in Europe) est un projet européen subventionné par Horizon 2020. Il s'organise autour de deux pôles d'action principaux : mettre en réseau des experts de la science ouverte et tirer partie de leur expertise pour la création de formations et l'élaboration d'une infrastructure technique ouverte pour la centralisation, la gestion et le partage des publications scientifiques et des données de recherche pour soutenir le travail des scientifiques européens.

Source : OpenAIRE

Open Research Data

Définition

Open Research Data ou Libre accès aux données de recherche vise à rendre accessibles gratuitement et de manière permanente aux chercheurs/euses et citoyens/ennes les données de recherches financées par des fonds publics. Ces données doivent être FAIR (Findable, Accessible, Interoperable and Reusable) afin de pouvoir être consultées, utilisées, modifiées et partagées librement. 

L'Open Research Data est considéré comme un élément essentiel de l'évolution de la recherche scientifique notamment vis-à-vis de sa transparence, de sa reproductibilité et de la mesure de son impact. 

Source : Open HES-SO, UNIL et SNF

Open Science

Définition

L'Open Science ou science ouverte est un terme générique qui désigne un ensemble d'initiatives et de politiques ayant pour objectif de réformer la manière de conduire, d'évaluer et de diffuser la recherche scientifique. Cette initiative a notamment donné naissance à l'Open Access et à l'Open Research Data. L'Open Science met l'accent sur l'importance de la transparence, de la reproductibilité et sur la collaboration entre toutes la parties prenantes de la science.

Pour aller pour loin:

ORCID

Définition

ORCID, acronyme de Open Researcher and Contributor IDentifier, est un système international et gratuit d'identifiant numérique persistant. Cet identifiant permet d'identifier de manière univoque un chercheur ou une chercheuse et donc de le distinguer précisément de ses pairs, notamment de ses éventuels homonymes . Un ORCID peut être relié à toutes les productions d'un-e scientifique comme ses publications, ses subventions, et toute autre contribution. 

Source: ORCID

P

Plan de gestion des données

Définition

Un plan de gestion des données, ou Data Management Plan en anglais (DMP), est un document formel qui présente la manière dont les données d'une recherche seront traitées durant et après un projet de recherche.

La plupart des organismes de financement exigent désormais la soumission d'un DMP lors de toute demande de subvention. Le Fonds national suisse (FNS) a introduit cette exigence depuis l'automne 2017.

Pseudonymisation

Définition

La pseudonymisation désigne "le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable".

Source : Règlement général sur la protection des données

R

Re3Data

Définition

Re3data ou Registry of Research Data Repositories est un répertoire mondial de dépôts de données de recherche ouvert en 2012. 

Il permet de rechercher des dépôts de données de recherche par plusieurs critères : 

  • Nom
  • Sujet
  • Pays
  • etc.

Ce répertoire propose des vignettes colorées évaluant la conformité avec certains critères spécifiques, notamment en termes d'accessibilité.  Cela permet notamment d'évaluer si un dépôt est conforme avec les principes FAIR.

Source : Re3Data

Repository

Définition

Un data repository, en français un dépôt de données, est un espace dédié au téléversement de données de recherche dans l'objectif de leur archivage et/ou de leur mise à disposition dans une perspective de transparence ou de réutilisation par des pairs.

Les repositories peuvent être ouverts ou fermés et être classés en 3 types principaux  :

  • génériques ou multidisciplinaires : ouvertsà tous les types de données
  • disciplinaires : ouverts à des données issues un domaine/champ d'étude spécifique
  • institutionnels : gérés par une institution et ouverts à ses membres uniquement

Pour aller pour loin:

S

Science ouverte

Définition

L'Open Science ou science ouverte est un terme générique qui désigne un ensemble d'initiatives et de politiques ayant pour objectif de réformer la manière de conduire, d'évaluer et de diffuser la recherche scientifique. Cette initiative a notamment donné naissance à l'Open Access et à l'Open Research Data. L'Open Science met l'accent sur l'importance de la transparence, de la reproductibilité et sur la collaboration entre toutes la parties prenantes de la science.

Pour aller pour loin:

Stockage des données de recherche

Définition

Le stockage des données de recherche porte sur des données dites actives, c'est-à-dire des données qui sont encore en cours d'utilisation. Le stockage doit se faire sur des plateformes sûres, dont le contenu est sauvegardé régulièrement, afin d'assurer l'intégrité et la sécurité des données.

Il est important de le distinguer le stockage de l'archivage des données de recherche. En effet, ces deux actions ne poursuivent pas les mêmes objectifs et par conséquent il existe des solutions et des plateformes dédiées et spécifiques à chacune d'entre elles.

Pour aller pour loin:

U

Unitec

Définition

Unitec est une unité de l'UNIGE spécialisée dans la valorisation de la recherche et l'encouragement de transfert de technologie entre l'Université , les Hôpitaux universitaires, la Haute école spécialisée de Genève, la Cité et les milieux économiques.

Pour aller pour loin:

Y

Yareta

Définition

Yareta est un Data Repository développé dans le cadre du projet national «DLCM» de swissuniversities  et du projet de loi cantonal « Infrastructure numérique pour la recherche ». 

Cette plateforme respecte les principes FAIR pour la gestion des données de recherche. Il est de ce fait en accord avec les exigences des bailleurs de fond (FNS, Horizon 2020) en matière d’archivage et de préservation des données de recherche.

Elle est à la disposition de l’ensemble des chercheuses et chercheurs des hautes écoles genevoises.

Source : eresearch

Pour aller pour loin: