MARGO

Actualité

Salon Big Data 2018 : ce qu’il faut en retenir

Les projets restent encore trop centrés sur les technologies et ne prennent pas suffisamment en compte les use-cases


30/03/2018

Selon l’IDC, le marché du Big Data devrait atteindre 203 milliards de dollars de chiffre d’affaires en 2020, contre 130,1 milliards de dollars en 2016.

C’est dans ce contexte de forte croissance que 15 200 participants se sont retrouvés au palais des Congrès pour le salon Big data 2018 : deux jours consacrés à la valorisation de la donnée. Les équipes Margo étaient présentes et vous proposent un compte-rendu de ce qu’il faut en retenir.

“Multiplication des applications de Machine Learning et de l’Intelligence Artificielle, croissance accélérée des usages de l’IoT et adoption d’uns stratégie cloud pour l’analyse des données volumineuses : 2018 sera l’année de la convergence entre le Big data et les autres technologies de rupture.” Le ton a été donné dès l’ouverture du salon. A l’heure où 53% des entreprises dans le monde ont adopté le Big Data (Etude Dresner Advisory Services, 2017), les discours s’orientent très vite sur les technologies qui se doivent d’être toujours plus performantes et sécurisées. Quid de la collaboration avec le métier ? des use-cases ?

L’analyse approfondie de la donnée permet en effet de traiter et d’imaginer de nouveaux usages et de nouveaux business model. La Data est aujourd’hui un territoire concret de développement et de création de valeur pour les entreprises qui n’est plus à prouver. Pour autant, les projets restent encore trop centrés sur les technologies et ne prennent pas suffisamment en compte les use-cases.

Tous les secteurs d’activité et tous les métiers sont concernés par la Data to Business mais l’enjeu pour les entreprises est de se mettre en ordre de marche pour tirer LA valeur de leurs données :

  • Traiter de plus en plus de données déstructurées. La mise en place d’architectures et infrastructures adaptées permettront de collecter, organiser et traiter de manière efficiente d’importants volumes de données issues de différentes sources et de qualité et formats variés.
  • Valoriser les données. L’utilisation de techniques avancées de fouille des données (data mining), couplée à une dimension prédictive et d’apprentissage (deep learning), ouvre le champs de l’analyse exploratoire des données. Etre en capacité de ressortir les informations de valeur (corrélation, atypisme, etc) et d’établir les bons modèles pour prendre les meilleures décisions.
  • Identifier de nouveaux usages et de nouveaux business model. L’analyse pertinente des données au bon moment permet d’anticiper les besoins des clients et de comprendre leurs attentes afin de créer des produits adaptés.

Avec les témoignages de plus de 100 speakers et 250 marques exposantes, le salon a été riche en retour d’expériences et en présentations de solutions. Retrouvez ci-dessous quelques-uns des sujets qui nous ont marqués.

 

“Machine Learning: what works and what they won’t tell you.” – Ted DUNNING, Chief Application Architect MAPR

salon big data 2018 Ted DUNNING MAPR

L’idée à retenir de la présentation de Ted Dunning est que le Deep Learning n’est pas systématiquement la méthode de Machine Learning à privilégier. Dans certains cas, il est tout à fait possible de créer de la valeur avec des modèles d’apprentissage rapides et peu onéreux. C’est justement le principe du Cheap Learning.

Ainsi, en utilisant une méthode basée sur le principe de coocurence dans un moteur de recherche, il est possible d’optimiser les résultats trouvés, et ce, sans effort particulier pour développer un modèle d’apprentissage complexe. Le coocurence permettra par exemple de faire remonter des résultats sur le Flamenco si la requête initiale est “guitare espagnole”, car ces termes sont coocurents (c’est-à-dire qu’ils sont très fréquemment présents simultanément dans le même énoncé).

Autre exemple : celui du Transfer Learning. Le Transfer Learning consiste à transformer du Deep Learning en Cheap Learning, en réutilisant un modèle complexe déjà entraîné. Grâce à un modèle complexe de reconnaissance d’image qui permet d’identifier des poulets, on peut tout à fait développer un modèle beaucoup moins complexe qui détectera les oiseaux apparaissant dans un poulailler.

 

“Prédire les ventes quotidiennes du site e-commerce pour optimiser la chaîne logistique.” – Clément MARCHAL, Head of Data Science SEPHORA

Salon big data 2018 Clément MARCHAL SEPHORA

Sephora applique une stratégie machine learning afin de prédire leurs ventes quotidiennes sur leur site e-commerce pour optimiser la chaîne logistique et piloter la performance des opérations commerciale en temps réel. Les modèles machine learning ont été développés grâce à la solution Dataiku. Sur cette plateforme on peut en effet simplement importer les données nécessaires, choisir des modèles à tester, puis les mesures d’évaluations. Tous les processus de machine learning sont ensuite développés et déroulés automatiquement. Finalement, Sephora arrive à avoir des modèles Random Forest et Xgboost en utilisant des données « plan marketing » et « logs de navigation », qui donnent des résultats satisfaisants selon Clément Marchal.

 

« Quand les big data transforment le journalisme : plongez au cœur des technologies derrière les Paradise Papers » – Pierre ROMERA, CTO ICIJ

Le Big Data au service du journalisme. l’ICIJ – consortium international des journalistes d’investigation- met à disposition des journalistes une solution d’extraction rapide des données permettant de fournir en temps réel ces dernières aux journalistes, facilitant ainsi leur travail d’investigation.

 

« Passez maître dans l’art de visualiser vos données avec la solution Tableau » – Anastasiia Sergiienko, Senior Product Consultant Tableau Software

Tableau Software est une entreprise américaine qui conçoit une famille de produits orientés visualisation des données.

Sur la plateforme Tableau, il est facile de faire des segmentations selon les besoins et d’analyser les données en programmant en Python/R. Par exemple, l’ingénieur chez tableau a présenté comment visualiser les données de tous les hôtels à Paris sur une carte, de façon dynamique et interactive avec Tableau. En faisant une analyse géographique, on peut facilement trouver que le nombre d’hôtels dans 8ème arrondissement de Paris est plus élevé que dans les autres.

 

« Intelligence Augmentée: Advanced Analytics » – Frédéric Romagna, Consulting Services Director Qlik et Baptiste Durand, Professional Services Consultant Qlik

Qlik est l’éditeur de QlikView et Qlik Sense, logiciels de business intelligence et de data-visualisation. Les solutions qlik permettent de visualiser et d’analyser des données facilement pour prendre les meilleures décisions. L’exploration des données se fait en toute liberté et il n’est pas nécessaire de changer toutes les requêtes dès que l’on veut avoir un angle d’analyse différent (ce qui est le cas avec des rapports pré-définis) et ce qu’il s’agisse de 40 ou de 40 milliards de lignes avec des temps de réponse instantanés !  L’atelier a permis d’éclairer les partocpants sur la famille de produits Qlik. Côté Data Science, il a montré que l’intégration de R et Python dans la plateforme permet aux utilisateurs métiers d’aller plus loins dans leur découvertes des données.

 

« Intelligence artificielle en action: traitement en temps réels d’images grâce au deep learning avec calcul automatique de scores grâce au machine learning » – Marcel Lemahieu,  Advisory Business Solution Manager SAS et Mark Bakker, Data Strategist in the field of data science and analytics SAS

SAS Institute, dont le nom a été formé à partir de « Statistical Analysis System », est un éditeur de logiciels spécialisé en informatique décisionnelle. A l’occasion du salon Big Data, l’éditeur présentait leur nouvelle solution “SciSports”. Cet outil est capable de capturer et d’analyser les comportements des meilleurs joueurs de football, comme Cristiano Ronaldo, en temps réel. 40 caméras sont ainsi installées dans un stade de football pour capturer le mouvement et la position de chaque joueur dans le stade.

En comparant les données des joueurs les uns avec les autres, on est en mesure d’identifier les points forts et points faibles. Ensuite, l’outil fournit des conseils pour améliorer les performances. 

Les données sont également utilisées pour prédire les meilleurs joueurs dans le futur. Cet outil peut ainsi aider des clubs de football à détecter plus rapidement de hauts potentiels.  

 

Trifacta : “préparez vos données assurance dans hadoop pour l’analyse de risque et des sinistres”

Trifacta est une solution de préparation rapide des données brutes et variées. La solution intègre des services Amazon S3 et Google Cloud mais également des solutions Big Data telles que Cloudera et Hortonworks.

La solution adresse particulièrement les  données d’assurance pour l’analyse des risques et de réclamations.

 

Découvrez nos autres articles sur le salon Big data 2018 :

Margo vous accompagne pour faire de vos données le moteur de votre croissance

Notre démarche innovante nous permet de prouver de la valeur sur un use-case métier en seulement 10 semaines : 2 jours pour identifier le cas, 2 semaines pour le cadrer et 2 mois pour le réaliser.

GO WORK Together : Vous avez un projet Data ou ne savez pas comment tirer de la valeur vos données ? Contactez nos équipes !

En savoir plus sur notre offre Data to Business


Big Data
Data
DataScience
Machine Learning
Actualité

Kaggle Challenge : Ad Tracking fraud detection pour TalkingData

TalkingData est la plus grande plateforme indépendante de services Big Data en Chine, couvrant plus de 70% des appareils mobiles actifs dans tout le pays. Ils traitent 3 milliards de clics par jour, dont 90% sont potentiellement frauduleux. Afin de garder une longueur d'avance sur les fraudeurs, ils se sont tournés vers la communauté Kaggle pour obtenir de l'aide dans le développement de leur solution. Le sujet du challenge : créer un algorithme qui prédit si un utilisateur va télécharger une application après avoir cliqué sur une annonce d'application mobile.

31/05/2018 Découvrir 
Actualité

La Data Science appliquée au monde du retail : les 10 use-cases incontournables

La Data Science impacte de plus en plus les business model dans toutes les industries, et notamment dans la vente de détail. Selon IBM, 62% des détaillants déclarent que l'utilisation de techniques relatives au Big Data leur donne un sérieux avantage compétitif. Savoir ce que veut votre client et à quel moment est aujourd’hui à portée de main grâce à la data science. Pour cela il suffit d’avoir les bons outils et les bons processus en place pour les utiliser. Nous présentons dans cet article 10 applications essentielles de la data science au domaine du retail.

18/05/2018 Découvrir 
Actualité

Introduction aux Chatbots avec Dialogflow

DialogFlow est un très bon outil pour apprendre à créer des Chatbots qui pourront ensuite être intégrés dans vos propres sites web ou applications. Dans cet article, je commencerai par introduire quelques notions sur Dialogflow et les Chatbots, puis je vous expliquerai comment créer simplement un Chatbot sur cette plateforme.

07/05/2018 Découvrir 
Actualité

Introduction aux systèmes réactifs

Les systèmes réactifs sont un style d’architecture permettant à de multiples applications individuelles de se fondre en une seule unité, en réagissant à leur environnement, tout en restant conscientes les unes des autres. La première formalisation de ce terme a vu le jour avec la création du « Reactive Manifesto » en 2013 par Jonas Boner qui, en rassemblant certains des esprits les plus brillants dans l’industrie des systèmes distribués, souhaitait clarifier la confusion autour de la réactivité (qui est devenu un « buzz-word ») et construire une base solide pour un style de développement viable.

04/05/2018 Découvrir 
Actualité

Mise en place d'une plateforme centralisée de gestion des logs avec la suite Elastic

Les cas d’usage de la suite elastic sont nombreux. Nous citons à titre d’exemple la correction d’un dysfonctionnement applicatif par la récupération des erreurs explicites (exception, message d’erreur ..etc) et le suivi de la charge d’une application (mémoire consommée, CPU ..etc), ce qui permet d’avoir une vision globale de la production. De même au niveau métier, il est possible d’exploiter la suite pour valider une chaîne de workflow par l’extraction des données spécifiques et leurs analyses.

04/05/2018 Découvrir 
Actualité

Introduction à TensorFlow sur le datalab de Google Cloud Platform

TensorFlow est une librairie logicielle, open source depuis 2015, de calcul numérique développée par Google. Dans ce mini-tutoriel, nous allons vous apprendre comment utiliser datalab sur GCP et écrire votre premier programme en TensorFlow.

04/05/2018 Découvrir