MARGO

Tribune

Des statistiques traditionnelles à la Data Science

plus qu’un simple rebranding !

Par Youssef Bennani Senior Data Scientist

« Datascience is statistics on a Mac ». Au-delà de la caricature portée par cette affirmation, l’idée que la « data science » se veut ni plus ni moins qu’un « rebranding » des statistiques est aujourd’hui partagée par de nombreux ingénieurs en statistiques, jusque-là simplement présentés comme tels… Karl Borman, professeur de statistiques de l’université du Wisconsin la rejette ainsi : « La Data Science, c’est les statistiques. Quand les physiciens font des mathématiques, ils ne disent pas qu’ils font de la science des nombres. Ils font des maths. ». Si la critique est intéressante et audible, il n’en demeure pas moins que l’appellation « data science » a pourtant de solides raisons d’exister, et que les premiers à avoir appelé à élargir les statistiques en une science des données ne sont ni plus ni moins que des statisticiens de renommée, il y a de cela un demi-siècle !

En cherchant sur le Web une définition de la Data Science, nous trouvons d’ailleurs sur Wikipédia que : « L’objectif du data scientist est de produire des méthodes de tri et d’analyse de données de masse et de sources plus ou moins complexes ou disjointes de données, afin d’en extraire des informations utiles. » Cela ne correspond-il pas à ce que font les ingénieurs statisticiens depuis des décennies ?

Pourquoi donc inventer une autre appellation, une autre science ?

Comme le fait remarquer David Donoho, mathématicien américain spécialiste en statistique, dans son article « 50 years of data science », depuis au moins 50 ans, des statisticiens clairvoyants construisent les bases d’une science des données en tant qu’élargissement des statistiques traditionnelles. Un élargissement qui donne lieu à une nouvelle science englobant tous les aspects de l’apprentissage à partir des données.

La data science : l’apprentissage à partir des données ?

Dans un article de 1962, John Turkey, célèbre statisticien américain, expliquait pourquoi il pensait que la recherche scientifique en statistiques était trop étroitement ciblée, si ce n’est nuisible à l’activité d’analyse des données, appelant ainsi à ce qu’elle devienne une nouvelle science plus globale, capable d’apporter des réponses aux différents défis (mathématiques, informatiques…) posés par de nouveaux types de données. Son point de vue, partagé et appuyé par d’autres scientifiques de la branche, repose ainsi sur l’élargissement de leur champ au concept inclusif d’apprentissage à partir des données.

William Clevland, célèbre statisticien de Bell Labs, avançait le fait que l’effort déployé en science des données devrait être jugé en fonction de la mesure dans laquelle il permet à l’analyste d’apprendre des données et non plus par l’élégance des preuves mathématiques.

De manière plus récente, c’est bien le succès des GAFA qui a permis de valoriser la donnée et au terme de « data science » d’envahir finalement les médias grand public. L’occasion de faire le point sur quelques idées reçues concernant les termes de « statistiques » et « data science » qu’il convient bien de distinguer.

De la distinction des compétences…

Avant toute chose, il convient de revenir sur la principale idée reçue qui voudrait que la data science ne serait que la statistique appliquée au big data ?  En réalité, les statisticiens traitent les données quelle que soit leur volumétrie ! Historiquement, les statisticiens ont traité des quantités de données considérables à l’échelle des populations des pays. Est-il donc bien légitime d’inventer une nouvelle science, du seul fait que nous produisons et traitons aujourd’hui des quantités de données plus importantes ?… L’une des premières distinctions repose surtout sur la maitrise de certaines compétences spécifiques aux data scientists, le plus souvent informatiques. Illustration avec le célèbre diagramme de Venn qui définit la data science comme étant l’intersection entre les statistiques, l’informatique et un domaine d’expertise ou d’application.

En effet, prenons l’exemple de l’utilisation de Hadoop, servant à répartir des ensembles de données sur un cluster d’ordinateurs. Est-ce une compétence qui résout le problème de l’analyse des données ou est-ce simplement une solution à un artefact d’ordre organisationnel ? Dans les structures dédiées au big data, l’infrastructure du traitement des données de production est déjà bien établie. Dès lors que le flux de données est assuré, c’est donc le retour à la case départ : il faut dès lors parvenir à produire des analyses pertinentes.

…à celle de l’approche même du traitement des données

Mais ce qui distingue aujourd’hui plus fondamentalement la data science des statistiques, c’est la différence dans l’approche de la valorisation des données. Leo Breiman, un statisticien de l’Université de Berkeley, dans son article intitulé « Statistical Modeling: The Two Cultures » différencie ainsi deux approches : l’approche générative ou l’approche prédictive. La première cherche à établir la structure d’un modèle adapté aux données, puis à tirer des conclusions sur le mécanisme générateur de donnée, alors que la seconde donne la priorité à la prédiction, ne s’intéressant pas au mécanisme sous-jacent à la production des données et préférant se concentrer la précision de la prédiction des algorithmes. C’est aujourd’hui bien la modélisation prédictive qui est l’un des moteurs essentiels de l’intelligence artificielle, permettant l’utilisation des données pour aider l’ordinateur à l’automatisation, et l’une des innovations les plus marquantes de ces dernières décennies ! Les avancées qu’a connu le « Machine Learning », sur lequel est basé l’essentiel des systèmes d’IA modernes, vers davantage de prédiction constituent sans aucun doute l’un des principaux fossés existants aujourd’hui entre les statistiques traditionnelles et la data science.

Elle a donc aujourd’hui de solides raisons d’exister, ne se résumant pas à la seule combinaison des statistiques et de l’informatique. Et pour cause, pour résoudre des problèmes concrets, un data scientist devra s’acquitter des tâches qui dépassent sa formation traditionnelle, faisant notamment appel aux succès des techniques du deep learning pour tester plus largement et répondre plus spécifiquement.

 

Retrouvez notre tribune sur ce sujet dans Decideo : Des statistiques traditionnelles à la Data Science : plus qu’un simple rebranding !


Par Youssef Bennani Senior Data Scientist
Big Data
Data
Data to Business
DataScience
Success Story

Le Machine Learning source de ROI commercial pour un acteur bancaire majeur

Margo accompagne l'un des acteurs majeurs de la banque dans la réalisation d'un projet de développement et d'industrialisation d'un modèle de Machine Learning. Nous vous proposons notre retour d'expérience sur la mise en oeuvre de ce projet afin de mieux comprendre comment la datascience peut rapidement devenir génératrice de ROI pour nos clients.

04/07/2019 Découvrir 
Tribune

Mener à bien un projet data : une route encore semée d'embûches

En 2020, les investissements des entreprises dans les projets data devraient dépasser les 203 milliards de dollars au niveau mondial. Mais à l'heure où beaucoup se revendiquent être des Data Driven Companies, nombre de projets data se soldent encore par un échec.

15/10/2018 Découvrir 
Actualité

Tutoriel : Quelques bases en python pour la prédiction de séries temporelles

Dans ce tutoriel, nous introduisons quelques concepts élémentaires en séries temporelles afin de pouvoir effectuer “rapidement” des prédictions de valeurs futures sur des données temporelles. Loin d’être exhaustif, ce premier tutoriel présente quelques outils de base en Python permettant d’effectuer de premiers traitements. Le code permettant de retrouver ces résultats est ici : https://gitlab.com/margo-group/public/SeriesTemporelles.

11/09/2018 Découvrir 
Communiqué de presse

Margo prévoit 200 recrutements d’ici fin 2019

Margo, société de conseil française créée en 2005, annonce l’ouverture au recrutement de 40 postes supplémentaires d’ici la fin de l’année 2018. Historiquement spécialisée en IT et finance de marché, l’entreprise, qui a fait évoluer son business model afin d’adresser désormais tous les secteurs d’activité concernés par les avantages concurrentiels portés par la transformation digitale, compte déjà plus de 300 collaborateurs en France, mais aussi en Pologne et en Angleterre. Poursuivant sa forte dynamique de croissance, elle ambitionne également d’augmenter ses effectifs sur l’année 2019 grâce au recrutement de 160 nouveaux collaborateurs.

10/09/2018 Découvrir 
Actualité

Kaggle Challenge : Ad Tracking fraud detection pour TalkingData

TalkingData est la plus grande plateforme indépendante de services Big Data en Chine, couvrant plus de 70% des appareils mobiles actifs dans tout le pays. Ils traitent 3 milliards de clics par jour, dont 90% sont potentiellement frauduleux. Afin de garder une longueur d'avance sur les fraudeurs, ils se sont tournés vers la communauté Kaggle pour obtenir de l'aide dans le développement de leur solution. Le sujet du challenge : créer un algorithme qui prédit si un utilisateur va télécharger une application après avoir cliqué sur une annonce d'application mobile.

31/05/2018 Découvrir 
Actualité

La Data Science appliquée au monde du retail : les 10 use-cases incontournables

La Data Science impacte de plus en plus les business model dans toutes les industries, et notamment dans la vente de détail. Selon IBM, 62% des détaillants déclarent que l'utilisation de techniques relatives au Big Data leur donne un sérieux avantage compétitif. Savoir ce que veut votre client et à quel moment est aujourd’hui à portée de main grâce à la data science. Pour cela il suffit d’avoir les bons outils et les bons processus en place pour les utiliser. Nous présentons dans cet article 10 applications essentielles de la data science au domaine du retail.

18/05/2018 Découvrir