Créer des métadonnées
Les métadonnées, littéralement « données à propos des données », sont des informations qui décrivent les caractéristiques basiques d'une donnée ou d’un jeu de données, et ce, quel que soit le support (physique ou numérique).
Par exemple :
- Son/sa ou ses auteurs
- Son contenu
- Sa date de création
- Le lieu de capture/de production
- La raison pour laquelle les données ont été générées
- Comment les données ont été créées
- etc.
Ces différents éléments sont appelés des champs de métadonnées.
Le rôle des métadonnées est donc de venir replacer les données de recherche dans leur contexte de création et d’utilisation facilitant ainsi leur compréhension, leur traitement et leur potentielle réutilisation par soi-même ou par des tiers. Les métadonnées devraient être aussi complètes que possible, en utilisant les standards et les conventions de la discipline en question, et devraient être lisibles par les machines.
Typologie
Les métadonnées peuvent être classées en plusieurs grandes familles. Plusieurs typologies coexistent comme celle proposée par l’Australian National Data Service (ANDS) qui distingue 6 familles de métadonnées :
Standards / Schémas de métadonnées disciplinaires
Déterminer précisément quelles métadonnées devraient être renseignés est une tâche difficile, car le choix est fortement dépendant du contexte de production et d’utilisation des données. C’est pourquoi des initiatives ont créé des modèles comportant une liste d’éléments en adéquation avec les besoins de description d’une discipline ou des fins recherchées. Ces modèles sont appelés des standards de métadonnées.
Exemples de standards :
- Dublin Core : standard constitué, dans sa première version, de 15 éléments et généralement utilisé pour décrire des ouvrages
- Darwin Core : standard dérivé du Dublin Core développé pour les besoins spécifiques de l’informatique de la diversité biologique pour la description et la facilitation du partage d'informations.
- Data Documentation Initiative (DDI) : standard international pour la description de données produites dans les sciences sociales, comportementales, économiques et de la santé. Les standards DDI permettent aux données d'être documentées, découvertes ainsi qu’interopérables. Les spécifications et les outils sont disponibles sur le site internet du DDI.
- Digital Imaging and Communications in Medicine (DICOM) : standard international reconnu par l’accréditation ISO 12052 spécifique aux images médicales et à leurs informations connexes. Il définit notamment les formats des images médicales qui peuvent être échangées avec les données et la qualité nécessaires à leur utilisation clinique.
De nombreuses disciplines académiques ont ainsi formalisé des standards spécifiques de métadonnées adaptés aux besoins de leurs communautés et à la réutilisation de leurs données.
Sur son site web, le Digital Curation Centre (DCC) propose une page regroupant ces standards avec pour chacun d’entre eux des informations générales, des outils pour les mettre en œuvre et des cas d'utilisation de dépôts de données qui les utilisent actuellement.
L’initiative FAIRSharing propose également un tableau récapitulatif des standards métadonnées.
Lorsqu'une liste de champs de métadonnées possède une structure particulière et des valeurs plus contraignantes en termes de format ou d’options, il s’agit d’un schéma de métadonnées.
Les schémas de métadonnées proposent ainsi des listes d’éléments, obligatoires ou facultatifs, à renseigner, accompagnés de la syntaxe précise à utiliser. Par exemple, le formatage des dates en suivant le modèle 2021-05-14 ou 20210514.
Exemple de schéma :
- Schéma DataCite : composé d’une liste de champs sélectionnés pour leur adéquation pour l'identification précise et cohérente d'une ressource à des fins de citation et de récupération. De plus, les champs ont été classés en trois catégories : obligatoires, recommandés et optionnels. Une documentation complète avec des instructions d'utilisation recommandées de ce schéma est disponible sur leur site internet.
Quand et comment créer des métadonnées
Comme pour la gestion des données de recherche dans sa globalité, les métadonnées devraient être créées le plus tôt possible et au fur et à mesure du projet afin d’éviter une surcharge de travail en fin de projet, au moment de l’archivage des données de recherche.
Il est possible de créer les métadonnées manuellement ou en s’appuyant sur des logiciels ou des plateformes visant à faciliter ou automatiser cette démarche. Ces plateformes peuvent être généralistes ou spécifiques à certaines disciplines.
Le Digital Curation Centre a compilé une liste de ces outils.