Quantifier, analyser et prévoir à l’ère des big data

Le développement de la numérisation au cours des cinquante dernières années a conduit à une situation dans laquelle un nombre croissant de données sont disponibles pour la compréhension des phénomènes sociaux ou économiques. Administrations publiques, organisations internationales et entreprises privées utilisent régulièrement ces données pour s’informer, analyser et planifier. Cependant, certains écueils existent. Comment utiliser ces nouvelles sources pour documenter les phénomènes sociaux ? Comment éviter les problèmes de qualité parfois insuffisante des big data ?

Une double révolution a eu lieu en sciences sociales, et plus généralement dans la documentation et la prévision des phénomènes sociaux. D’une part, l’informatisation dans la deuxième moitié du 20^e siècle a rendu disponible, à un large public, un nombre important de données d’enquêtes, d’états civils ou de recensements harmonisés. L’IPUMS , un institut américain, met par exemple à disposition des recensements de plus de 100 pays sur une période allant de 1790 à aujourd’hui, représentant deux milliards d’enregistrements individuels. Ces données, et pouvoir y accéder, sont un atout important pour les universitaires, les organisations gouvernementales ou non gouvernementales et les entreprises. Elles permettent de mieux comprendre et documenter les changements sociétaux et d’élaborer le cas échéant des politiques adaptées.

D’autre part, la numérisation croissante, dans tous les secteurs d’activité, conduit à l’enregistrement quasi systématique des faits de notre quotidien : nos interactions sur les réseaux sociaux, des informations sur nos paiements par carte bancaire, sur l’utilisation de nos cartes de fidélité ou sur nos déplacements sont recueillies et stockées sous forme numérique, par différents acteurs publics ou privés. Une fois anonymisées, ces données peuvent aussi, dans une certaine mesure, servir de plateforme à la documentation de phénomènes sociétaux.

Les big data : pour quoi faire ?

Au rang des premiers développements issus de la numérisation massive, il convient de citer la Digital Disease Detection (DDD). Ce mode opératoire de détection des maladies repose sur le recours à différentes métadonnées pour suivre et contrôler des épidémies. Par exemple, l’identification de mots-clés sur les réseaux sociaux (notamment Twitter) ou sur les moteurs de recherche fournit une base intéressante pour suivre l’intérêt du public ou les échanges concernant des maladies infectieuses. La DDDest utilisée à large échelle dès 2009 dans le contexte de l’épidémie de grippe H1N1, et s’est renforcée par la suite, notamment dans la lutte contre l’épidémie d’Ebola. Bien que parfois remise en question en raison de ses problèmes de calibrage, qui génèrent des imprécisions, cette approche repose sur une information rapidement disponible et en libre accès : la DDD a profondément modifié la surveillance de certaines maladies. En intégrant des données du big data, elle complémente les suivis épidémiologiques classiques qui reposent sur les observations et déclarations des médecins et nécessitent plus de moyens et de temps pour être mis en œuvre. Loin de remplacer donc les approches traditionnelles, la DDD permet de compléter la connaissance d’un phénomène médical, ce qui permet d’agir plus efficacement en cas d’épidémie.

Dans d’autres domaines, comme la planification des transports, les big data ont généré une masse d’informations qui étaient très rares dans le passé. Par exemple, il n’y a pas si longtemps, la mesure du trafic routier était effectuée soit manuellement par des agent-es posté-es au bord des routes qui dénombraient le nombre de voitures, soit à l’aide de boucles de comptage placées sur le bitume, dans un nombre limité d’endroits et à des coûts élevés. Aujourd’hui, la géolocalisation GPS ou les données des opérateurs téléphoniques permettent une mesure des flux de trafic à un coût moindre et en temps réel. Le recours à cette quantité massive d’informations numériques permet par exemple, dans la mesure où elles sont offertes à l’ensemble du public, de disposer rapidement de l’état de la circulation routière via des applications.

Le recours aux big data a explosé depuis les débuts de la pandémie du COVID-19. La nécessité de faire face rapidement à un phénomène global, pour lequel les sources traditionnelles d’informations ne suffisent plus, explique largement cette accélération. Ainsi, dans beaucoup de pays industrialisés, le recours aux métadonnées a permis de valider, voire de corriger, des mesures de lutte contre la pandémie mises en place dans l’urgence. Ce fut notamment le cas dans le domaine de la mobilité et des activités économiques, nécessairement réduites en période de confinement. Par exemple, en utilisant des données d’une application de traçage (Cubiq), des chercheurs italiens^[1] ont rapidement pu mettre en lien les comportements de mobilité dans les régions italiennes avec l’évolution de la pandémie. Cela a permis d’évaluer sous quel délai les mesures de confinement sont suivies d’effets. Un groupe de chercheurs suisses a pour sa part construit un instrument de surveillance de la consommation des ménages en utilisant les données des paiements par cartes bancaires. Ils ont ainsi pu évaluer en temps réel l’impact de certaines mesures sur le chiffre d’affaires des restaurateurs ou du commerce de détail.

Quel avenir pour l’utilisation des big data ?

Les administrations chargées des thématiques sociétales, les organisations non gouvernementales engagées sur des questions liées à l’humain (migration, handicap, etc.), ou plus généralement les entreprises actives dans ces domaines, restent frileuses concernant ces développements statistiques. Dans une société pourtant largement connectée, les big data et les grandes bases statistiques restent sous-exploitées. Les raisons en sont diverses : prudence excessive face à des données peu précises, existence de méthodes de collecte dites traditionnelles (telles que les enquêtes, qui se sont également développées « en ligne » avec les eSurveys), doute quant à la capacité explicative de ces données, ou encore manque d’originalité dans les approches pour recueillir des informations. Pour autant, de plus en plus d’acteurs du domaine public ou privé se penchent, et se pencheront ces prochaines années, sur ces données alternatives pour améliorer leur connaissance de la société ou de leur marché.

Mesurer ou quantifier, afin d’analyser des phénomènes socioéconomiques ou démographiques, ou de prévoir comment ces phénomènes évolueront, a de tout temps représenté un défi. Aujourd’hui, face à la multiplication des sources d’informations, l’enjeu est celui du tri : trier les données pour pouvoir identifier celles qui peuvent être utiles, et celles qui ne le sont pas. Il convient aussi de pouvoir valider les données sélectionnées, et ce en fonction de critères scientifiques, puis de les traduire en indicateurs permettant d’interpréter correctement les phénomènes étudiés et de les intégrer dans des systèmes de suivi (monitoring). L’utilisation des big data est dans ce cadre pertinente, notamment en complément aux informations recueillies de manière traditionnelle.

Cette démarche nécessite une approche rigoureuse : une mauvaise interprétation pouvant résulter en des décisions… mal informées. Pouvoir et savoir naviguer dans cette diversité de données sans s’y perdre, et les utiliser à bon escient, seront gages d’une société de l’information informée. Ces défis sont au cœur du Certificat de formation continue (CAS) en Analyse des populations. Le premier module, organisé entre avril et mai 2022, porte spécifiquement sur la complémentarité des approches de recueil des données dans les domaines sociodémographiques. Les modules suivants permettent de se former à la construction, à partir d’un ensemble de données, d’indicateurs et d’outils de monitoring traduisant la complexité de la société et offrant, plus spécifiquement, des instruments sur lesquels formuler des politiques, des mesures ou des actions spécifiques.

^[1] Vinceti M. et al. (2020), Lockdown timing and efficacy in controlling COVID-19 using mobile phone tracking. eClinical Medicine

Cet article a également été publié dans l'édition de février 2022 de newSpecial.

Les articles de nos expert-es

Quantifier, analyser et prévoir à l’ère des big data