Créer des métadonnées

Les métadonnées, littéralement « données à propos des données », sont des informations qui décrivent les caractéristiques basiques d'une donnée ou d’un jeu de données, et ce, quel que soit le support (physique ou numérique).

Par exemple :

  • Son/sa ou ses auteurs
  • Son contenu
  • Sa date de création
  • Le lieu de capture/de production
  • La raison pour laquelle les données ont été générées
  • Comment les données ont été créées
  •  etc.

Ces différents éléments sont appelés des champs de métadonnées.

Le rôle des métadonnées est donc de venir replacer les données de recherche dans leur contexte de création et d’utilisation facilitant ainsi leur compréhension, leur traitement et leur potentielle réutilisation par soi-même ou par des tiers. Les métadonnées devraient être aussi complètes que possible, en utilisant les standards et les conventions de la discipline en question, et devraient être lisibles par les machines.

Typologie

Les métadonnées peuvent être classées en plusieurs grandes familles. Plusieurs typologies coexistent comme celle proposée par l’Australian National Data Service (ANDS) qui distingue 6 familles de métadonnées :

Métadonnées descriptives

Ces métadonnées sont utilisées pour faciliter la découverte, l’évaluation et la compréhension des contenus.

Exemples :

  • Titre,
  • Auteur-e / contributeurs Description,
  • Localisation et dates de l’étude
  • Langue
  • Mots-clés Identifiants uniques (ISBN, DOI etc.)
  • etc.
Métadonnées de provenance

Ces métadonnées décrivent l’origine des données et les traitements qu’elles ont traversés. Elles sont nécessaires pour une bonne compréhension, interprétation et réutilisation des données. Ces métadonnées concernent des actions humaines comme des aspects très techniques et requièrent souvent une certaine connaissance du domaine de recherche pour être renseignées.

Exemples :

  • D’où viennent les données ?
  • Pourquoi ont-elles été collectées ?
  • Qui les a collectées, où et quand ?
  • Quels instruments ou technologies ont été utilisés pour collecter les données et comment ont-ils été mis en place ?
  • Comment les données ont-elles été traitées ?
  • etc.

 

Métadonnées techniques

Ces métadonnées permettent l’interopérabilité des données à travers les différents systèmes et de fait assurent la pérennité de leur lecture à la fois par les humains et les machines.

Exemples :

  • Comment les données sont-elles configurées ?
  • Quels formats et versions de formats sont utilisés ?
  • Comment est configurée la base de données ?

 

Métadonnées de droits et d’accès

Ces métadonnées décrivent les modalités d’accès et d’utilisation des données, les statuts des droits d’auteur, les conditions de licence et les titulaires des droits.

Exemples :

  • Comment une personne peut-elle accéder aux données ?
  • Qui est autorisé à lire ou modifier les données ou les métadonnées, et sous quelles conditions ?
  • Qui est responsable ou possède une autorité sur les données ?
  • Y-a-t-il des coûts associés à l’accès aux données ?
  • Sous quelle licence les données sont-elles disponibles ?

 

Métadonnées de préservation

Ces métadonnées sont les informations nécessaires pour gérer la disponibilité des données dans le long terne. Ces métadonnées s’appuient sur les métadonnées de provenance, techniques, et de droits et d’accès.

Exemples :

  • Les fichiers ont-ils subi des restructurations ou d'autres modifications, liées par exemple à la migration vers de nouveaux formats de fichiers ? (checksums)
  • Quel logiciel a été utilisé pour accéder aux données ?

 

Métadonnées de citation

Ces métadonnées contiennent les informations nécessaires pour que les données soient citées convenablement par des tiers.

Exemple :

  • Créateurs/trices
  • Année de publication
  • Titre
  • Éditeur
  • Identifiant
  • etc.

 

Standards / Schémas de métadonnées disciplinaires

Déterminer précisément quelles métadonnées devraient être renseignés est une tâche difficile, car le choix est fortement dépendant du contexte de production et d’utilisation des données. C’est pourquoi des initiatives ont créé des modèles comportant une liste d’éléments en adéquation avec les besoins de description d’une discipline ou des fins recherchées. Ces modèles sont appelés des standards de métadonnées.

Exemples de standards :

  • Dublin Core : standard constitué, dans sa première version, de 15 éléments et généralement utilisé pour décrire des ouvrages
  • Darwin Core : standard dérivé du Dublin Core développé pour les besoins spécifiques de l’informatique de la diversité biologique pour la description et la facilitation du partage d'informations.
  • Data Documentation Initiative (DDI) : standard international pour la description de données produites dans les sciences sociales, comportementales, économiques et de la santé. Les standards DDI permettent aux données d'être documentées, découvertes ainsi qu’interopérables. Les spécifications et les outils sont disponibles sur le site internet du DDI.
  • Digital Imaging and Communications in Medicine (DICOM) : standard international reconnu par l’accréditation ISO 12052 spécifique aux images médicales et à leurs informations connexes. Il définit notamment les formats des images médicales qui peuvent être échangées avec les données et la qualité nécessaires à leur utilisation clinique.

De nombreuses disciplines académiques ont ainsi formalisé des standards spécifiques de métadonnées adaptés aux besoins de leurs communautés et à la réutilisation de leurs données.

Sur son site web, le Digital Curation Centre (DCC) propose une page regroupant ces standards avec pour chacun d’entre eux des informations générales, des outils pour les mettre en œuvre et des cas d'utilisation de dépôts de données qui les utilisent actuellement.

L’initiative FAIRSharing propose également un tableau récapitulatif des standards métadonnées.

Lorsqu'une liste de champs de métadonnées possède une structure particulière et des valeurs plus contraignantes en termes de format ou d’options, il s’agit d’un schéma de métadonnées.

Les schémas de métadonnées proposent ainsi des listes d’éléments, obligatoires ou facultatifs, à renseigner, accompagnés de la syntaxe précise à utiliser. Par exemple, le formatage des dates en suivant le modèle 2021-05-14 ou 20210514.

Exemple de schéma :

  • Schéma DataCite : composé d’une liste de champs sélectionnés pour leur adéquation pour l'identification précise et cohérente d'une ressource à des fins de citation et de récupération. De plus, les champs ont été classés en trois catégories : obligatoires, recommandés et optionnels. Une documentation complète avec des instructions d'utilisation recommandées de ce schéma est disponible sur leur site internet.

Quand et comment créer des métadonnées

Comme pour la gestion des données de recherche dans sa globalité, les métadonnées devraient être créées le plus tôt possible et au fur et à mesure du projet afin d’éviter une surcharge de travail en fin de projet, au moment de l’archivage des données de recherche.

Il est possible de créer les métadonnées manuellement ou en s’appuyant sur des logiciels ou des plateformes visant à faciliter ou automatiser cette démarche. Ces plateformes peuvent être généralistes ou spécifiques à certaines disciplines.

Le Digital Curation Centre a compilé une liste de ces outils.

Source: Australian National Data Service (ANDS), 2016. ANDS guide : metadata. Décembre 2016.