La "science des données", nouveau défi statistique
L’énorme quantité de données chiffrées qui circule aujourd’hui dans le monde au travers des technologies de l’information ouvre des opportunités de recherche inédites aux statisticiens. A condition d’y donner du sens
Les technologies de l’information ont fait entrer la science dans l’ère des grands nombres. Chaque jour, des milliards de textes, de photos et de vidéos sont échangés à travers le monde via le courrier électronique et les réseaux sociaux. Chaque recherche ou achat effectué sur le Web, à l’aide d’un téléphone mobile ou d’une carte client dans un magasin laisse des traces numériques. Toutes ces données sont ensuite stockées sur des serveurs, attisant la convoitise des gouvernements et des entreprises. La publicité et les services personnalisés sont déjà une réalité, laissant entrevoir une utilisation possible de cette précieuse information.
La capacité des serveurs à mémoriser et à traiter d’énormes quantités de données représente également une opportunité pour les chercheurs, en particulier en sciences économiques et sociales, ainsi que dans des domaines comme la génétique, les neurosciences, la physique des particules ou encore les sciences humaines avec l’essor des humanités numériques.
Point de vue inédit
Ce nouveau champ d’investigation, appelé «Big Data» ou, de manière plus académique, «Data Science», la «science des données», constitue un nouveau défi pour les statisticiens. S’il était possible d’ouvrir une fenêtre sur cet univers numérique, un point de vue sur la réalité totalement inédit et forcément chaotique s’offrirait en effet à nos yeux. Un point de vue qui confirmerait l’aphorisme du mathématicien suédois Andrejs Dunkel: «Il est facile de faire mentir les statistiques, mais il est difficile de dire la vérité sans elles.»
Potentiellement, les données numériques représentent un avantage considérable. Parce qu’elles sont écrites dans un langage de base relativement simple, elles sont facilement accessibles et peuvent être dupliquées et combinées entre elles de manière infinie et quasi instantanée.
En recoupant, par exemple, les admissions dans des hôpitaux, les achats de médicaments et les recherches sur Internet, il devient possible de suivre la propagation d’une épidémie en temps réel. Lors de l’épidémie de grippe porcine, en 2009, Google a ainsi tracé la progression de la maladie en suivant les requêtes des usagers.
Les données numériques brutes, surtout lorsqu’elles se présentent en quantité aussi bruyante, n’offrent cependant que peu d’intérêt si elles ne sont pas intégrées à des modèles susceptibles de leur conférer du sens et, à terme, de produire de nouvelles connaissances.
Pour pouvoir les traiter, il est en effet nécessaire de structurer l’information de façon pertinente, en corrigeant notamment les biais par lesquels elle a été collectée, organisée et parfois inférée lorsque les données originelles étaient manquantes. Plus il y a d’information, plus il est facile de la faire mentir, souvent involontairement.
Travail titanesque
Pour s’atteler à ce travail titanesque, auquel collabore l’Institut de recherche en statistique de l’UNIGE, les statisticiens se doivent de faire appel aux connaissances d’autres disciplines, au sein de cette nouvelle «science des données». Celles des mathématiciens et des informaticiens en premier lieu. Mais aussi celles des psychologues et des sociologues, tant le facteur humain tend à occuper une place importante dans le traitement des grandes bases de données.
Articles associés
Profession: traqueur de connaissance
L'Institut qui dompte les chiffres
Vidéo
Info RTS: "Les entreprises collectent des données pour mieux cerner les habitudes des clients"