
« Datascience is statistics on a Mac ». Au-delà de la caricature portée par cette affirmation, l’idée que la « data science » se veut ni plus ni moins qu’un « rebranding » des statistiques est aujourd’hui partagée par de nombreux ingénieurs en statistiques, jusque-là simplement présentés comme tels… Karl Borman, professeur de statistiques de l’université du Wisconsin la rejette ainsi : « La Data Science, c’est les statistiques. Quand les physiciens font des mathématiques, ils ne disent pas qu’ils font de la science des nombres. Ils font des maths. ». Si la critique est intéressante et audible, il n’en demeure pas moins que l’appellation « data science » a pourtant de solides raisons d’exister, et que les premiers à avoir appelé à élargir les statistiques en une science des données ne sont ni plus ni moins que des statisticiens de renommée, il y a de cela un demi-siècle !
En cherchant sur le Web une définition de la Data Science, nous trouvons d’ailleurs sur Wikipédia que : « L’objectif du data scientist est de produire des méthodes de tri et d’analyse de données de masse et de sources plus ou moins complexes ou disjointes de données, afin d’en extraire des informations utiles. » Cela ne correspond-il pas à ce que font les ingénieurs statisticiens depuis des décennies ?
Pourquoi donc inventer une autre appellation, une autre science ?
Comme le fait remarquer David Donoho, mathématicien américain spécialiste en statistique, dans son article « 50 years of data science », depuis au moins 50 ans, des statisticiens clairvoyants construisent les bases d’une science des données en tant qu’élargissement des statistiques traditionnelles. Un élargissement qui donne lieu à une nouvelle science englobant tous les aspects de l’apprentissage à partir des données.
La data science : l’apprentissage à partir des données ?
Dans un article de 1962, John Turkey, célèbre statisticien américain, expliquait pourquoi il pensait que la recherche scientifique en statistiques était trop étroitement ciblée, si ce n’est nuisible à l’activité d’analyse des données, appelant ainsi à ce qu’elle devienne une nouvelle science plus globale, capable d’apporter des réponses aux différents défis (mathématiques, informatiques…) posés par de nouveaux types de données. Son point de vue, partagé et appuyé par d’autres scientifiques de la branche, repose ainsi sur l’élargissement de leur champ au concept inclusif d’apprentissage à partir des données.
William Clevland, célèbre statisticien de Bell Labs, avançait le fait que l’effort déployé en science des données devrait être jugé en fonction de la mesure dans laquelle il permet à l’analyste d’apprendre des données et non plus par l’élégance des preuves mathématiques.
De manière plus récente, c’est bien le succès des GAFA qui a permis de valoriser la donnée et au terme de « data science » d’envahir finalement les médias grand public. L’occasion de faire le point sur quelques idées reçues concernant les termes de « statistiques » et « data science » qu’il convient bien de distinguer.
De la distinction des compétences…
Avant toute chose, il convient de revenir sur la principale idée reçue qui voudrait que la data science ne serait que la statistique appliquée au big data ? En réalité, les statisticiens traitent les données quelle que soit leur volumétrie ! Historiquement, les statisticiens ont traité des quantités de données considérables à l’échelle des populations des pays. Est-il donc bien légitime d’inventer une nouvelle science, du seul fait que nous produisons et traitons aujourd’hui des quantités de données plus importantes ?… L’une des premières distinctions repose surtout sur la maitrise de certaines compétences spécifiques aux data scientists, le plus souvent informatiques. Illustration avec le célèbre diagramme de Venn qui définit la data science comme étant l’intersection entre les statistiques, l’informatique et un domaine d’expertise ou d’application.
En effet, prenons l’exemple de l’utilisation de Hadoop, servant à répartir des ensembles de données sur un cluster d’ordinateurs. Est-ce une compétence qui résout le problème de l’analyse des données ou est-ce simplement une solution à un artefact d’ordre organisationnel ? Dans les structures dédiées au big data, l’infrastructure du traitement des données de production est déjà bien établie. Dès lors que le flux de données est assuré, c’est donc le retour à la case départ : il faut dès lors parvenir à produire des analyses pertinentes.
…à celle de l’approche même du traitement des données
Mais ce qui distingue aujourd’hui plus fondamentalement la data science des statistiques, c’est la différence dans l’approche de la valorisation des données. Leo Breiman, un statisticien de l’Université de Berkeley, dans son article intitulé « Statistical Modeling: The Two Cultures » différencie ainsi deux approches : l’approche générative ou l’approche prédictive. La première cherche à établir la structure d’un modèle adapté aux données, puis à tirer des conclusions sur le mécanisme générateur de donnée, alors que la seconde donne la priorité à la prédiction, ne s’intéressant pas au mécanisme sous-jacent à la production des données et préférant se concentrer la précision de la prédiction des algorithmes. C’est aujourd’hui bien la modélisation prédictive qui est l’un des moteurs essentiels de l’intelligence artificielle, permettant l’utilisation des données pour aider l’ordinateur à l’automatisation, et l’une des innovations les plus marquantes de ces dernières décennies ! Les avancées qu’a connu le « Machine Learning », sur lequel est basé l’essentiel des systèmes d’IA modernes, vers davantage de prédiction constituent sans aucun doute l’un des principaux fossés existants aujourd’hui entre les statistiques traditionnelles et la data science.
Elle a donc aujourd’hui de solides raisons d’exister, ne se résumant pas à la seule combinaison des statistiques et de l’informatique. Et pour cause, pour résoudre des problèmes concrets, un data scientist devra s’acquitter des tâches qui dépassent sa formation traditionnelle, faisant notamment appel aux succès des techniques du deep learning pour tester plus largement et répondre plus spécifiquement.
Retrouvez notre tribune sur ce sujet dans Decideo : Des statistiques traditionnelles à la Data Science : plus qu’un simple rebranding !