MARGO

Actualité

Salon Big Data : retour sur la conférence BNP Paribas Retail Banking

Mise en place d’un datalab CASD et réalisation d’algorithmes de Machine Learning sur données bancaires en assurant la sécurité, l’anonymisation et la conformité au GDPR

Par Eric Fokou Data Scientist @fokou_eric

28/03/2018

Les Margos étaient présents sur le salon Big Data organisé les 12 et 13 mars derniers à Paris. Découvrez notre compte-rendu de la conférence BNP Paribas Retail Banking où Laurent Lim et Kamel Gadouche ont présenté un retour d’expérience, en toute transparence, sur la  mise en place d’un datalab CASD et la réalisation d’algorithmes de machine learning sur des données bancaires. Contrainte forte : assurer la sécurité, l’anonymisation et la conformité au GDPR dans le traitement de milliards de transactions ultra sensibles.

Le premier point abordé par Laurent Lim, Responsable adjoint du service « Études et Management de la Connaissance Client » de la Banque de Détail en France BNP PARIBAS, s’articule autour de la problématique d’optimisation de la gestion des clients débiteurs. C’est en toute transparence, qu’il a expliqué que, pour résoudre ce problème, le premier modèle mis en place a été la régression logistique qui est un modèle de base utilisé pour résoudre des problèmes de classification. Le modèle est bien adapté sur l’historique de base qui est un historique considéré comme “court” (1 mois de données) mais le modèle est aussi appliqué sur des données classiques.

Il a également mentionné que l’équipe de Data scientists a procédé aux tests d’autres modèles tels que Random Forest où une amélioration a pu être observée. C’est probablement dû à la faculté de ces modèles d’intégrer un historique “long” (3 mois) mais également d’intégrer d’autres sources de données (sujet non abordé dans le cadre de la conférence).

Des modèles de Deep Learning ont été testés, cependant les résultats obtenus n’étaient pas  meilleurs que les performances des modèles précédents et ceci malgré leur coût de construction important.

Une chose très importante sur laquelle Laurent Lim a insisté est le fait qu’habituellement en Banque, le modèle le plus efficace en termes de performance ou de précision n’est pas toujours celui qui est retenu. En effet la qualité la plus recherchée est l’explication et la compréhension des résultats obtenus par ces modèles ou plus généralement des solutions développées.

Les modèles tels que le Deep Learning ont encore un long chemin à parcourir avant d’être intégrés en Banque, et ce malgré la qualité des performances obtenues sur certains problèmes. La raison à cela est tout simplement que des modèles tels que la régression logistique, qui sont des modèles simples d’implémentation et d’exploitation, donnent des résultats nettement acceptables mais surtout avec un niveau de compréhension que les modèles de Deep Learning n’ont pas encore atteint aujourd’hui.

La seconde intervention durant cette conférence est celle de Kamel Gadouche, directeur du CASD-Centre d’accès sécurisé aux données. En effet, BNP a collaboré avec le CASD durant ce projet. Le rôle du CASD a été de mettre en place un écosystème Big Data permettant aux Data Scientists de travailler de façon sécurisée sur des données sensibles. Le CASD propose une solution de sécurisation des données entre des entreprises et des entités proposant des services Data Science ou Big Data. Cela facilite donc la confiance entre les différentes parties participantes au projet notamment sur la confidentialité des données. Le CASD a actuellement plus de 1500 data scientist travaillant sur leur plateforme.


Par Eric Fokou Data Scientist @fokou_eric
Big Data
Data
DataScience
Actualité

La Data Science appliquée au monde du retail : les 10 use-cases incontournables

La Data Science impacte de plus en plus les business model dans toutes les industries, et notamment dans la vente de détail. Selon IBM, 62% des détaillants déclarent que l'utilisation de techniques relatives au Big Data leur donne un sérieux avantage compétitif. Savoir ce que veut votre client et à quel moment est aujourd’hui à portée de main grâce à la data science. Pour cela il suffit d’avoir les bons outils et les bons processus en place pour les utiliser. Nous présentons dans cet article 10 applications essentielles de la data science au domaine du retail.

18/05/2018 Découvrir 
Actualité

Introduction aux Chatbots avec Dialogflow

DialogFlow est un très bon outil pour apprendre à créer des Chatbots qui pourront ensuite être intégrés dans vos propres sites web ou applications. Dans cet article, je commencerai par introduire quelques notions sur Dialogflow et les Chatbots, puis je vous expliquerai comment créer simplement un Chatbot sur cette plateforme.

07/05/2018 Découvrir 
Actualité

Introduction aux systèmes réactifs

Les systèmes réactifs sont un style d’architecture permettant à de multiples applications individuelles de se fondre en une seule unité, en réagissant à leur environnement, tout en restant conscientes les unes des autres. La première formalisation de ce terme a vu le jour avec la création du « Reactive Manifesto » en 2013 par Jonas Boner qui, en rassemblant certains des esprits les plus brillants dans l’industrie des systèmes distribués, souhaitait clarifier la confusion autour de la réactivité (qui est devenu un « buzz-word ») et construire une base solide pour un style de développement viable.

04/05/2018 Découvrir 
Actualité

Mise en place d'une plateforme centralisée de gestion des logs avec la suite Elastic

Les cas d’usage de la suite elastic sont nombreux. Nous citons à titre d’exemple la correction d’un dysfonctionnement applicatif par la récupération des erreurs explicites (exception, message d’erreur ..etc) et le suivi de la charge d’une application (mémoire consommée, CPU ..etc), ce qui permet d’avoir une vision globale de la production. De même au niveau métier, il est possible d’exploiter la suite pour valider une chaîne de workflow par l’extraction des données spécifiques et leurs analyses.

04/05/2018 Découvrir 
Actualité

Introduction à TensorFlow sur le datalab de Google Cloud Platform

TensorFlow est une librairie logicielle, open source depuis 2015, de calcul numérique développée par Google. Dans ce mini-tutoriel, nous allons vous apprendre comment utiliser datalab sur GCP et écrire votre premier programme en TensorFlow.

04/05/2018 Découvrir 
Actualité

Les horloges de Lamport et le pattern de l’Idempotent Producer (Kafka)

Connaissez-vous les horloges de Lamport ? Devoxx France 2018 était l’occasion, lors du très intéressant talk de DuyHai DOAN, de découvrir ou redécouvrir cet algorithme formalisé par Leslie Lamport en 1978, plus que jamais utilisé aujourd’hui dans le domaine des systèmes distribués, et qui aurait notamment inspiré les développeurs de Kafka dans l’implémentation du pattern de l’Idempotent Producer.

26/04/2018 Découvrir