Le groupe BPCE reste fidèle à Hadoop et privilégie l'open source

Data / IA

BPCE prend le virage de l’hybride et des conteneurs en restant fidèle à Hadoop

Par Alain Clapaud, publié le 26 avril 2023

Dès 2014, Natixis, marque du groupe BPCE, a fait le choix de la plateforme Hadoop on-premise pour porter sa stratégie big data. Un choix technique qui perdure aujourd’hui, mais qui a été très largement modernisé avec une ouverture vers le cloud public et, dernièrement, des conteneurs Kubernetes.

A l’heure où l’on annonce la mort d’Hadoop et où de nombreuses entreprises migrent leurs data lakes vers des alternatives cloud, le groupe BPCE reste fidèle à la plateforme open source. Initialement déployée sur la distribution Hadoop d’Hortonworks, l’architecture big data du groupe bancaire est toujours basée sur Hortonworks Data Platform en dépit des incertitudes engendrées par la fusion de l’éditeur avec Cloudera.

Le groupe dispose d’une plateforme à Paris et d’autres sur les zones Asie-Pacifique et États-Unis, le tout hébergé dans des datacenters en propre. « En plus de supporter les référentiels transverses, ces plateformes sont à disposition des métiers : CIB (Corporate & Investment Banking), Finance et Risque et enfin Corporate qui regroupe les RH, le juridique, workplace, etc. », explique Florian Caringi, manager big data & data architecture team et leader open source du groupe BPCE. Elles servent aux échanges de données et aux traitements : data warehousing, reporting et data science. « Si beaucoup d’entreprises ont déployé des plateformes Hadoop pour faire spécialement des data sciences, ce n’est pas notre cas. Il s’agit pour nous d’un cas d’usage parmi tant d’autres et ce n’est pas le principal. »

Actuellement, 120 use cases sont portés par la plateforme : il s’agit soit de data lakes multi-domaines, soit de cas d’usage plus spécifiques, et de nombreuses applications on-premise piochent des données dans cette infrastructure.

La plateforme data du groupe BPCE est infogérée par BPCE IT.
L’équipe qui prend en charge la plateforme est issue du monde Unix et travaille avec une nouvelle équipe dédiée à OpenShift.

Parmi les consommateurs de données, les métiers peuvent mettre en œuvre les outils comme Tableau, PowerBI Cloud Services ou Azure Analytics Services en fonction de leurs besoins. « Il y a deux ans, nous avons commencé à tester Azure Machine Learning pour faire de la data science sur Azure avec une exportation des datasets, car nous avons jugé les services proposés par les cloud providers sur les data sciences extrêmement intéressantes. »
Cette hybridation ne consiste pas uniquement à solliciter des services dans le cloud public, mais aussi à intégrer en interne des traitements cloud via les technologies Google Anthos et Azure Arc : « Nous avons descendu le service Azure Machine Learning sur nos infrastructures pour faire tourner les inférences sur nos machines. Nous capitalisons ainsi sur la capillarité entre les briques technologiques on-premise et cloud. »

Un glissement de l’approche data lake vers la data fabric

L’infrastructure big data s’est donc ouverte sur le cloud public, mais a aussi évolué fonctionnellement pour aller vers le concept de data fabric. « Nous avons voulu créer une data fabric, avec de multiples sources de données et une volonté de capitaliser sur les assets de l’entreprise, notamment les compétences internes. Nous avons ainsi ajouté une brique Informatica Big Data pour alimenter la plateforme. »

En outre, pour exposer les données des data lakes aux utilisateurs métiers, et leur donner la capacité de créer des dashboards PowerBI sans avoir à créer des bases de données en réplication d’Hadoop, donc pour offrir de meilleurs temps de réponse, l’équipe data a fait le choix de déployer la solution Indexima. « Nous avons voulu offrir une porte d’entrée pour tout le volet BI sans devoir répliquer les données. Il s’agit d’une capacité d’exposition sur une plateforme pleinement maîtrisée en interne, avec des droits d’accès uniformes pour tous les outils. »
Entre 800 à 900 Go de données des data lakes sont ainsi rendus disponibles aux métiers pour réaliser de l’analytique temps réel sans les problèmes de performance liés à Hadoop.


À LIRE AUSSI :



Florian Caringi ajoute que si HDFS, le système de fichiers distribué d’Hadoop, accuse son âge, la plupart des briques de distribution comme Spark ou Kafka restent très compétitives.
Néanmoins, pour assurer la pérennité de son investissement sur Hadoop et garder une porte de sortie vis-à-vis de Cloudera, le groupe BPCE participe à la communauté des entreprises françaises Tosit, qui a créé et maintient une distribution Hadoop alternative, la Trunk Data Platform.

Le futur est dans les conteneurs

BPCE a fait le choix de capitaliser sur son existant et sur d’importantes compétences internes. Sa communauté de développeurs, de spécialistes en cybersécurité, en production applicative ou en infrastructures compte 700 personnes sur Teams dont plus de 300 échangent quotidiennement.

Mais outre le maintien de cet important « legacy », l’équipe data planche aujourd’hui sur le futur de son infrastructure, une modernisation qui passe par une mise en œuvre de plus en plus large de Kubernetes : « Nous souhaitons conteneuriser les services à conserver et les mettre dans la plateforme d’orchestration. C’est notre challenge aujourd’hui. Nous avons certes une plateforme “bare metal” que nous sommes parvenus à hybrider avec des couloirs cloud, mais il nous faut désormais nous doter d’une capacité interne à créer des conteneurs. »

Florian Caringi,
Manager big data & data architecture team, leader open source du Groupe BPCE

« Nous voulons délivrer des services à la demande dans une approche de type service managé basé sur des conteneurs. »

En 2022, une plateforme big data OpenShift a ainsi été mise en place sur des serveurs non virtualisés. « Le problème d’Hadoop, ce sont ses lignes de commandes. C’est trop complexe pour les métiers. Nous voulions délivrer des services à la demande dans une approche de type service managé basé sur des conteneurs. Disposer d’une plateforme OpenShift / Kubernetes facilite leur mise à disposition pour nos clients, c’est-à-dire les utilisateurs métiers et business. »

L’expert rappelle que si la grande force d’une approche data lake repose sur la centralisation des données et sa capacité à mutualiser au maximum les applications pour en réduire le coût unitaire, elle a un « coût ». « L’inconvénient de la mutualisation, c’est la puissance de calcul dont il faut disposer. Avec notre approche OpenShift, les métiers vont payer la puissance de calcul consommée dans un cadre structuré et sans les mauvaises surprises d’une facture cloud ! »


LE PROJET EN CHIFFRES

6 Po de capacité de stockage

700 personnes dans la communauté data

120 cas d’usage portés par la plateforme data


L’ENTREPRISE

Activité : Groupe coopératif de banque et d’assurance
Effectif : 99 900 collaborateurs
Produit net bancaire : 25,7 Md€ (2021)


À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights