Data / IA

Ajuster le système d’information «data» aux métiers

Par La rédaction, publié le 05 octobre 2022

Du cluster Hadoop à l’essor du data hub

Disposer de capacités de stockage et de traitement de gros volumes de données ne suffit pas à porter une stratégie. Il faut non seulement doter ces plateformes d’outils de traitement des données, mais aussi d’une gouvernance pour impliquer les métiers. C’est ici que les data hubs prennent leurs sources.

L’essor du big data dans les années 2010 a donné naissance à une stratégie de centralisation des données à tout prix. Plutôt que de tenter de casser les silos (généralement des applications legacy trop complexes et coûteuses à faire évoluer), l’idée était de faire converger toutes les données en un point central, le data lake. Il devenait alors possible de chercher les corrélations entre les données marketing, les données commerciales ou les données issues de la production. Cette vague a donné naissance aux grandes « suites big data », comme Hortonworks et Cloudera, dont la technologie Hadoop constituait le cœur.

Entre centralisation technique et décentralisation logique

L’essor de ces suites a permis de constituer les premiers data lakes et la création des data factories, structures dans lesquelles les entreprises ont concentré leurs ressources humaines, notamment leurs data engineers et les fameux data scientists. Illustration de cette stratégie, celle de Malakoff Humanis, décrite par Yan Truong, responsable du département Big Data, Référentiels et Vision 360 : « Le groupe Malakoff Humanis a lancé un plan de transformation ces dernières années qui fait la part belle au digital et à la data. Nous en avons profité pour moderniser notre écosystème data et ce sont désormais quatre briques qui constituent les pierres angulaires d’une stratégie data driven : un data lake, un référentiel client unique (RCU), une vision 360 du client et enfin un data catalog. » Le groupe français a fait le choix d’AWS pour porter son data lake, les différents services cloud assurant la collecte, la structuration, la mise en qualité et l’exposition des données auprès des équipes métiers. « Nous avons complété ces services avec quelques solutions tierces : l’ETL Cloud Matillion, PowerBI pour la dataviz et enfin Dataiku pour les data scientists, couplé à du compute Databricks ou Kubernetes en cas de besoin de calcul distribué. »

Ces projets de référentiel client unique et cette Vision 360 ont permis à l’équipe de Yan Truong de consolider les données clients et d’en exposer une vision unique pour les autres briques du SI (SI gestion, Front, CRM…). « Ces deux applications ont été développées avec Marklogic qui présente l’avantage d’être à la fois une base documentaire, un serveur d’application et un moteur de recherche. En outre, nous avons retenu en 2021 DataGalaxy, développé par une start-up française, pour implémenter notre “DataCatalog 360°”. Celui-ci permet d’inventorier les données de nos briques réservées aux données, mais aussi les principales briques du SI “opérationnel”. C’est un élément de base de notre gouvernance qui nous permet de répondre à des enjeux de conformité. »

Impossible de faire l’impasse sur la gouvernance de la donnée

Cette problématique de gouvernance de la donnée s’est imposée à toutes les entreprises, notamment lorsque celles-ci se sont heurtées au mur de la qualité. Accumuler des données de toutes origines dans un un point central n’a de sens que si on peut accorder de la crédibilité à ces données et que si celles-ci sont réellement exploitables. Si les outils de data quality permettent d’automatiser en partie les traitements de correction, il est rapidement apparu que seules les entités métiers disposaient des connaissances nécessaires pour transformer leurs données brutes en informations exploitables par la data factory. Il fallait donc déporter la responsabilité des données de la DSI vers les métiers. On a ainsi vu des plateformes clairement orientées data gouvernance se transformer en véritables data platforms, avec des fonctions de data catalog, de data lineage (traçabilité des données) et de sécurité pour garantir la conformité des traitements de données. Les plateformes big data ont évolué dans le même sens vers la notion de data hub, à l’image du stack Cloudera qui, outre tous les services analytiques, assure des fonctions de catalogue de données, de schéma de sécurité et de gouvernance des données.

Illustration de cette évolution, dans le cadre de sa stratégie « data centric », le groupement d’assurances Covéa a déployé un data hub il y a quelques années en s’appuyant sur Cloudera. « L’idée étant de faire converger nos données sur ce hub, de les mutualiser et de les préparer à différents cas d’usage », résume Antoine Jousse, responsable des centres de solutions Décisionnel et Big Data de Covéa. « Un CDO (Chief data officer, NDLR) a été nommé et nous avons instauré une gouvernance afin d’impliquer les métiers dans cette mise en qualité des données. Nous nous sommes beaucoup inspirés du pattern DAMA (Data management association) qui est un modèle d’implémentation d’une démarche de management data. » Le responsable souligne que, outre son volet purement technique, cette création d’un data hub s’est accompagnée d’un gros travail sur la documentation de la donnée et, enfin, d’un volet valorisation, avec notamment les data sciences. « Ce sont les trois piliers de notre approche data, avec des chantiers qui sont lancés sur chacun d’eux en parallèle. »

Le data lake as a service s’impose peu à peu

Si, dans le cas de Covéa, basculer cette infrastructure dans le cloud public n’est pas à l’ordre du jour, pour Malakoff Humanis comme pour TotalEnergies, ce pas a d’ores et déjà été franchi. Avec une infrastructure technique saturée et de fortes perspectives de croissance, l’énergéticien a choisi de basculer son infrastructure de données basée sur Oracle on-premise vers une architecture cloud-native bâtie sur la solution Snowflake sur Azure : « Notre projet de transformation data avait pour objectif de soutenir cette croissance, mais aussi de prendre une longueur d’avance sur nos concurrents sur ce volet data, résume Ridha Nabli, IT head of data chez TotalEnergies. Deux exigences pesaient sur ce projet de transformation : la première était de nature organisationnelle. Il s’agissait de démocratiser l’accès aux données. La seconde : il ne s’agissait pas seulement d’un projet de migration technique, mais d’une refonte par les usages. Nous souhaitions embarquer les métiers et la production dans le projet et mettre en place une gouvernance de la donnée au moyen de la solution DataGalaxy. Nous avions besoin de cette brique afin de maîtriser comment est produite la donnée. »

À la fois performante en termes de richesse de l’offre proposée, de scabilité, mais aussi de coût, la solution du cloud public s’impose de plus en plus fréquemment dans les projets de modernisation des data lakes déployés il y a une dizaine d’années. Les offres de Data-Lake-as-a-Service proposées par tous les fournisseurs cloud majeurs permettent de résoudre une bonne part des problématiques d’exploitation des entrepôts de données.


TÉMOIN – ANTOINE JOUSSE, responsable des centres de solutions Décisionnel et Big Data chez Covéa

« Le big data est venu apporter de la valeur au décisionnel existant »

Notre data hub s’appuie essentiellement sur Cloudera et Talend, mais, et c’est un point important à souligner, les systèmes décisionnels historiques font pleinement partie de cette plateforme data. Les data warehouses ont toute leur place à côté des briques big data. Ils sont complémentaires et ne doivent pas nécessairement être remplacés dans l’immédiat. Le big data est venu apporter de la valeur additionnelle au décisionnel existant. En revanche, l’idée est d’alimenter les offres de services et d’alimenter les algorithmes de data science à partir du big data, mais aussi des briques décisionnelles. »

« La stratégie big data de Covéa a véritablement été initiée en 2014-2015 avec la mise en place de clusters Cloudera en production dans une démarche centralisée et la mise en place de notre data lab. Depuis environ quatre ans, nous avons lancé une démarche véritablement data centric qui passe par la centralisation des données dans un data lake et une préparation de ces données mutualisées pour soutenir de nombreux cas d’usage. Une donnée n’est potentiellement intéressante que si celle-ci a été retravaillée et présente une bonne qualité. L’idée est de la préparer une fois afin de pouvoir l’utiliser autant de fois que nécessaire.

Notre data hub s’appuie essentiellement sur Cloudera et Talend, mais, et c’est un point important à souligner, les systèmes décisionnels historiques font pleinement partie de cette plateforme data. Les data warehouses ont toute leur place à côté des briques big data. Ils sont complémentaires et ne doivent pas nécessairement être remplacés dans l’immédiat. Le big data est venu apporter de la valeur additionnelle au décisionnel existant. En revanche, l’idée est d’alimenter les offres de services et d’alimenter les algorithmes de data science à partir du big data, mais aussi des briques décisionnelles. »


Gouvernance de la data. 400 personnes impliquées chez L’Oréal

« La vocation de l’IT n’est pas d’être en charge de la valeur des données. C’est la raison pour laquelle nous avons souhaité mettre en place un ownership métiers, avec des personnes qui sont en charge de ce que nous appelons en interne une pépite », soulignait Olivier Noualhac, data governance officer du groupe L’Oréal, lors du dernier salon Big Data & IA Paris. Décentraliser la responsabilité d’une donnée dans un groupe qui compte 88 000 personnes implique d’outiller cette gouvernance : « Communiquer et partager le nom du owner de tel ou tel subset de données à une telle échelle, c’est très compliqué. À cet égard, la plateforme Collibra nous a beaucoup aidés. Nous avons divisé notre patrimoine de données en 18 domaines directement liés à nos métiers : finance, RH, supply chain, manufacturing, R&D, etc. Nous avons donc 18 data owners et 18 program managers qui sont les bras armés de ces data owners. » Dans chacun de ces domaines, les données sont regroupées dans une dizaine de familles, chacune d’elles étant gérée par un data steward qui est chargé de la qualité des données et de leur accessibilité. Cette organisation ne représente pas moins de 400 personnes au niveau du groupe, auxquelles il faut ajouter les équipes présentes dans les différentes zones géographiques où il est présent. « Au total, ce sont 2 000 personnes qui travaillent dans cette organisation. »


AN TRUONG, responsable du département Big Data, Référentiels et Vision 360 chez Malakoff Humanis

Ne pas négliger l’aspect organisationnel d’un projet data

« Chez Malakoff Humanis, nous avons la chance d’avoir un sponsor métiers fort, notre direction de l’innovation data et digitale, qui porte la vision “data centric”. Le challenge pour les équipes DSI est donc d’exploiter la donnée avec la bonne technologie et le bon modèle économique pour optimiser le “time to data”. Le cloud permet de bénéficier d’un écosystème big data complet et évolutif dans le temps en s’appuyant sur des services prêts à l’emploi, on parle alors “d’approche serverless”. AWS propose un service de stockage illimité nommé “S3”, un ETL (outil de transformation de données) nommé “Glue”, une plateforme Hadoop nommée “EMR” et toutes sortes de bases SQL et NoSQL. C’est facile à utiliser avec quasiment aucune administration. On limite ainsi au minimum les problématiques d’infrastructure. On développe nos produits data et on a toujours le même niveau de performance quel que soit le volume à traiter grâce à l’élasticité du cloud. »


+29,9 %

par an jusqu’en 2026

Sur la période 2021 à 2026, le marché des data lakes va connaître une croissance très soutenue, de l’ordre de 30 % par an. Selon les analystes de Research & Markets, le marché mondial atteindra 3,74 milliards de dollars. Les entreprises vont continuer à investir dans leurs data lakes au cours des prochaines années, pour les moderniser, mais aussi intégrer de nouvelles sources de données, notamment issues de l’IoT.


    Suite de l'article : 12345

Dans l'actualité

Verified by MonsterInsights