Confronté aux limites d’Hadoop sur l’exploitation de grosses volumétries de données, l’établissement bancaire a adopté le moteur d’accélération d’Indexima pour pouvoir à la fois réduire ses coûts de stockage et optimiser les performances de ses requêtes.

Filiale du Groupe BPCE, Natixis est un établissement financier français de dimension internationale spécialisé dans la gestion d’actifs et de fortunes, la banque de financement et d’investissement, l’assurance et les paiements. La société est présente dans 38 pays avec près de 16  000 collaborateurs.

Comme tout acteur du secteur bancaire, elle est soumise à un nombre croissant d’obligations réglementaires, lesquelles supposent une architecture data adaptée. « Pour pouvoir répondre aux instances réglementaires, il faut stocker toujours plus de données, effectuer toujours plus de traitements, gérer toujours plus de scénarios, réaliser toujours plus de stress tests… », détaille Florian Caringi, leader big data chez Natixis.

« Grâce à la puissance de parallélisation de Hadoop adossée
à l’accélération d’Indexima, nous avons
considérablement simplifié l’exploitation de notre masse d’informations en évitant toutes les  phases de préparation de la donnée »

La problématique était d’autant plus complexe pour cette banque que chaque service a sa propre équipe IT attitrée et ses propres applications dédiées. Pour les projets transverses, la société procédait par création ou enrichissement de datamarts, alimentés par des transferts de fichiers gérés par les services métier ad hoc. Au fil des projets, ces datamarts se transformaient en data warehouses et, afin de limiter les coûts en stockage, les données étaient purgées régulièrement. « Elles étaient bien entendu archivées, mais ce fonctionnement supposait une restauration à chaque fois que nous devions répondre à la demande d’une institution portant sur des données historiques », précise Florian Caringi.

De la même façon, les data scientists étaient obligés de passer par les équipes d’infrastructure pour obtenir des jeux de données spécifiques. « Nous avons donc adopté Hadoop afin de bénéficier d’un stockage moins onéreux pour pouvoir conserver l’historique sans exploser les coûts. En centralisant les données dans cet environnement, nous avons aussi supprimé progressivement le nombre de data warehouses et toutes les problématiques liées à la redondance et à la provenance des informations qui soulèvent des questions de fiabilité et de gouvernance. Dit autrement, nous étions sur une trajectoire big data assez classique : stocker plus, en payant le moins cher possible, afin de décupler notre potentiel d’analyse », détaille Florian Caringi.

Plateforme data centrale pour tous les projets transverses, l’écosystème Hadoop s’est rapidement enrichi de nouveaux jeux de données et d’un large éventail d’outils pour permettre à chaque service d’alimenter la base (scripts, ETL, etc.) et de consommer les données (API, outils de développement, etc.).
Au total, une communauté de 600 personnes gravite aujourd’hui autour de cette architecture data, qu’il s’agisse de collaborateurs chargés de gèrer l’infrastructure ou des équipes IT attachées aux services métier. « Progressivement, nous nous sommes transformés en data hub, tant du point de vue organisationnel que technique, explique Florian Caringi. Mais nous n’y serions jamais parvenus sans l’ajout du moteur d’accélération d’Indexima à notre plateforme. »

Très vite après le lancement de son projet big data, Natixis a en effet été confrontée aux écueils expérimentés par la majorité des entreprises sur Hadoop : une solution capable de stocker une volumétrie galopante à moindre coût, mais des performances en chute libre quand les requêtes adressaient la donnée de façon unitaire ou très fine.

Boostée au machine learning, la solution d’Indexima s’appuie sur un système d’indexation intelligent qui permet de préparer la donnée automatiquement afin de l’adapter au type de requête utilisé, qu’il s’agisse d’un algorithme de data science ou d’une simple analyse BI. Moteur d’accélération, Indexima minimise ainsi les déplacements de données : le modèle est directement appliqué à la volée à une source existante ou lors du transport vers un container si le contexte de l’application l’exige. Dit autrement, Natixis a enrichi son infrastructure data d’une brique qui se comporte comme une sorte de hub pour accélérer le traitement des données stockées en vrac dans Hadoop.

Avant d’adopter Indexima, Natixis avait étudié d’autres solutions, mais elles présentaient toutes des inconvénients, comme le souligne Florian Caringi : « Nous avons envisagé les caches mémoires, mais si trop d’utilisateurs sollicitaient les mêmes jeux de données simultanément, les problèmes de performance réapparaissaient. De la même façon, nous avons envisagé Hive, l’infrastructure d’entrepôt de données intégrée à Hadoop, mais nous perdions alors la souplesse d’utilisation avec un modèle de données figé. En 2016, les options étaient encore rares. Même sur le cloud, elles étaient embryonnaires et, comme la majorité des banques à l’époque, nous étions plutôt frileux à l’idée d’externaliser la gestion de nos données. Indexima sortait tout juste sa solution. C’était clairement un pari, mais la suite nous a donné raison : depuis le premier déploiement, Indexima a fait d’énormes progrès sur l’analyse des requêtes et l’optimisation des index, renforçant ainsi les perfomances de nos requêtes. »

Aujourd’hui, Natixis cumule plus de 6  To de données dans Hadoop. Environ 500  Go sont indexés par deux instances Indexima, chacune étant dédiée à des besoins métiers spécifiques. En moyenne, la société crée une nouvelle application tous les mois (tableau de bord, etc.). « La combinaison d’Indexima et Hadoop nous permet de stocker plus de données, à moindre coût et sans avoir à présupposer des usages : plus besoin de préparation et d’agrégation en amont pour exploiter efficacement les données, Indexima le fait à la volée pour nous », affirme Florian Caringi. Poussant la logique de son infrastructure data plus loin, Natixis vient d’y ajouter une nouvelle brique. Elle provient également d’une start-up française, experte sur le data catalog : Zeenea. Avec cet ajout, la société va encore renforcer l’usage de sa base Hadoop avec un outil qui lui permet de découvrir, comprendre et collaborer sur des données stockées en masse et plus ou moins « en vrac ».

 

L’ENTREPRISE

ACTIVITÉ > Établissement bancaire
EFFECTIF > 16  000 collaborateurs
CA > 1,37  Md€