Trouver des données déjà publiées

Avec les obligations de partager les données issues de la recherche, de plus en plus de jeux de données sont disponibles en ligne, ou via des services dédiés.

Voici quelques pistes pour trouver des données. Il conviendra ensuite de s’assurer qu’il est possible de les réutiliser.

Google permet de rechercher facilement un sujet suivi du terme «données» ou «data», mais saviez-vous que les opérateurs de recherche site: et filetype: vous permettent de restreindre les résultats à certains sites web sources et/ou à certains types de fichiers ?

Par exemple, si vous indiquez dans la recherche Google :

transports site:admin.ch filetype:xlsx

Les résultats ne contiendront que les fichiers Excel disponibles sur les sites web de l’administration suisse ayant trait aux transports.

De plus, la recherche avancée disponible en cliquant sur « Outils » vous permet de filtrer par pays, ce qui peut s’avérer utile pour rechercher des statistiques officielles, par exemple :

 

Google_recherche_syntaxeAvancee_filtreOutils.png

Google propose également une interface de recherche dévolue spécifiquement aux jeux de données de recherche : https://datasetsearch.research.google.com/

La présentation des résultats vous permet d’obtenir en un coup d’œil les informations essentielles pour la réutilisation, telle que la date de mise à disposition, la licence, et l’organisme mettant les données à disposition.

Sans titre.png

Le service InfoDesk des HUG peut être sollicité pour obtenir des exports des données du DataLake HUGData. Ce dernier est une véritable mine d’information clinique et administrative avec, par exemple, plus de 1.9 million de patient-es, 268 millions d’analyses de laboratoire, 153 millions de prescriptions, etc. 

La demande d’extraction doit être faite via un formulaire eProcess InfoDesk dans l’intranet des HUG (authentification HUG requise). La demande suit un circuit d’approbation au niveau institutionnel impliquant divers services. Sont notamment prises en compte les possibilités d’extraction liées à la structure et l’étendue de la base des données HUGData, le respect des lois, des directives HUG, des règles de bonnes pratiques, l’obtention de l’accord des autorités pour la recherche, les consentements des patient-es, etc.

Le service est gratuit. Le délai pour obtenir les données varie, en fonction du nombre et de la nature des demandes reçues.

Plus d'informations sur le service dans le bulletin d'information du CRC

Capture d'écran de la demande :infodesk.png

 

Si vous êtes plus à l’aise avec la recherche de publications scientifiques, il est utile de vérifier si des publications portent sur votre sujet, et si celles-ci décrivent des jeux de données et indiquent où ces derniers sont accessibles. Par ailleurs, outre les publications de recherche, certains articles, appelés « Data Papers », portent spécifiquement sur des jeux de données mis à disposition. 

Une fois une publication identifiée, il convient de vérifier dans la partie « data availability statement » de l’article, dans ses références bibliographiques, ou encore parfois dans les « supplementary materials » si on trouve la trace d'un ou plusieurs jeux de données réutilisables.

A noter que certaines bases de données, comme par exemple l’Archive ouverte UNIGE ou Web of Science offrent des filtres spécifiques permettant de limiter les résultats aux « data papers » ou « articles de données ».

AoU_Filtre_dataPapers.png

D'autres comme PubMed ou l’Archive ouverte UNIGE, permettent d’effectuer une recherche en ciblant les articles ayant des jeux de données associés.

PubMed_Filtre_associated_Data.png

Il est possible de rechercher des jeux de données directement dans les data repositories, les serveurs dédiés à la préservation des jeux de données. À l’UNIGE, le data repository institutionnel s’appelle Yareta. Il offre une interface de recherche permettant d’identifier et d’accéder à des jeux de données (ou de demander un accès à ceux qui seraient référencés, mais dont la mise à disposition est régulée par leurs déposant-es).

Selon la discipline, ou le type de données qui vous intéresse, d’autres data repositories peuvent également être consultés. Il en existe plus de 3’350 selon le répertoire re3data.org, qui les recense. Ce dernier permet d’effectuer une recherche selon différents critères, tels que la discipline. Une fois le data repository identifié, il faudra effectuer la recherche pour les jeux de données directement dans celui-ci, via son site web, l’outil re3data ne permettant malheureusement pas la recherche fédérée dans les contenus des data repositories référencés.

Quelques exemples, à part Yareta :

 

 

De plus en plus de services ou d'institutions partagent des jeux de données ouverts. Ils l'indiquent généralement sur leur site web.

C'est par exemple le cas des musées, bibliothèques ou services d'archives qui proposent des ressources telles que EuropeanaGallica, Retronews, etc.

En Suisse, la plateforme https://opendata.swiss/fr permet de chercher des jeux de données produit par les services de l'administration publique suisse tels que MétéoSuisse ou swisstopo, pour ne citer que quelques exemples:

data_adm.png 

 

 

Dernière mise à jour: 11 juillet 2025