La Data en 2024 : tendances, perspectives et technologies

Data / IA

La data en 2024 : décentraliser et urbaniser

Par Marie Varandat, publié le 14 décembre 2023

Hybridation, impact de l’IA, nouveaux enjeux de gouvernance, choix d’architecture… plus importante que jamais, la gestion de la data évolue en 2024 pour permettre aux entreprises de mieux maitriser et exploiter leur patrimoine.  

Voilà plus de 20 années qu’on ne cesse de le répéter : la data, c’est de l’or et à l’heure de l’IA et d’une analyse toujours plus accessible, grâce notamment aux plateformes data du cloud qui ne cessent de monter en puissance, la data est clairement devenue la substantifique moelle des entreprises.

Mais en 20 ans, la donne a bien changé. Adieu les datawarehouses et leurs cubes pour agréger les données en fonction de requêtes prédéterminées. Adieu aussi Hadoop qui après quelques heures de gloire n’a pas vraiment convaincu avec son concept de « on stocke tout pêle-mêle » et « on tape dedans avec toutes les requêtes qu’on pourra imaginer ». Mais l’idée du datalake, elle, est restée avec des moteurs un peu plus performants pour accélérer les requêtes, principal reproche fait à Hadoop.

Faciliter l’accès à la donnée

Au cœur de ces évolutions, l’accessibilité de la donnée reste un problème crucial pour toutes les entreprises. Identifier et isoler les données sensibles, rendre la donnée compréhensible par l’utilisateur final de sorte qu’il puisse créer ses propres tableaux de bord, créer des jeux de données prêts à l’emploi pour les développeurs et les datascientists… et plus simplement, dé-siloter et cataloguer pour finalement savoir ce qu’on a en stock afin d’en tirer de la valeur. Data Hub, datacatalog, datamesh, datafabric… toute sorte de nouveaux data-concepts et data-outils sont venus enrichir la panoplie du parfait “Data-DSI”. Et de fait, les entreprises ont fait des bonds colossaux en matière de gestion de leurs données ces dernières années. Mais c’est loin d’être fini…

Ainsi, dans un billet publié récemment, Victor Coustenoble, responsable architecte solutions chez Starburst pour l’Europe du Sud, identifie les nouvelles tendances pour 2024. Elles n’étonneront personne mais elles ont le mérite de bien situer où sont les enjeux et de mettre en évidence la complexité des architectures data modernes, malgré tous les efforts pour les simplifier.

Hybridation des architectures data

Pour Victor Coustenoble, les architectures data seront toujours plus hybrides : à cheval entre le cloud et l’interne, cette répartition facilite la gestion des conformités réglementaires et apporte plus de flexibilité.

Contrepartie, elle soulève des problèmes logistiques et éthiques selon le responsable architecte solutions de Starburst qui ne précise toutefois pas lesquels.

Parions que, côté logistique, les entreprises en 2024 vont regarder de plus près la facture de ces architectures hybrides car les flux d’entrée/sortie de données du cloud sont rarement gratuits. La question est d’autant plus épineuse que les entreprises utilisent de plus en plus de solutions SaaS, lesquelles stockent les données en local – autrement dit dans le cloud – et que le transfert/synchronisation – en interne ou vers une base centralisée sur un autre cloud – va finir par soulever des problèmes de coûts, de performances et de gouvernance.

Défis éthiques

Côté éthique, on peut imaginer que Victor Coustenoble fait au moins en partie référence aux problématiques de souveraineté et d’usage de la data mais plus encore aux problématiques des IA et de leur transparence (ou plutôt à l’heure actuelle de leur manque de transparence). C’est d’ailleurs tout le cœur de l’actuel AI Act Européen. Comment garantir l’absence de biais ? Comment garantir des usages éthiques de l’IA pour qu’elle ne discrimine pas et ne mette en danger ni l’humanité, ni les démocraties, ni chaque être humain ? Comment garantir que les données de l’entreprise échangées avec l’IA ne seront pas divulguées ou ne profiteront pas aux concurrents ? Comment garantir qu’un modèle qu’une entreprise aura mis tant d’investissement à personnaliser pour se constituer un avantage concurrentiel ne sera pas récupéré par un concurrent utilisant la même plateforme cloud IA ? Il n’existe aucune réponse claire à ses questions sans transparence. C’est l’un des grands enjeux de 2024 et des années à venir.


À LIRE AUSSI :


Du datalake au datamesh

Seconde tendance identifiée par Victor Coustenoble, le datalake continuera à avoir le vent en poupe mais il ne sera plus forcément dans le cloud. « On observe une tendance émergente vers des Data Lakes on-premises basés sur un stockage d’objets sans couches Hadoop, qui offrent une alternative moins complexe », indique-t-il. 

En pratique, de plus en plus d’entreprises abandonnent aussi ce concept de datalake au profit d’une urbanisation de la donnée, de sorte à créer les agrégats dont elles ont besoin, en mode virtuel ou dans une base spécialisée. Dit autrement, le dé-silotage passe, non pas par une base fourre-tout, mais par des pipelines d’alimentation, un portail qui expose les jeux de données disséminés dans le système d’information avec des outils de catalogue à l’appui et, accessoirement une couche de virtualisation. Véritable alternative au datalake, cette approche permet d’éviter la déduplication des données ainsi que beaucoup de batchs et autres processus de synchronisation.

D’ailleurs, troisième tendance, le responsable architecte solutions de Starburst reconnait que « les entreprises commencent à réaliser qu’il est impossible de tout centraliser dans un seul et même endroit », expliquant ainsi l’engouement croissant des entreprises pour le datamesh. En réalité, l’essor du datamesh répond surtout aux problématiques soulevées par les microservices, l’essor des architectures EDA et MACH et l’adoption des chaines CI/CD en entreprise. Ces approches supposent en effet un développeur qui n’est plus dépendant du DBA pour accéder au jeu de données dont il a besoin ou freiné par un modèle de données rigide et/ou des technologies contraignantes. Aligné sur le concept de microservices avec une donnée très décentralisée, organisée par domaine d’activité, la datamesh permet aux producteurs et aux consommateurs de données de gagner en autonomie. Mais ce concept apporte aussi son lot de complexité et les implémentations réussies – et maitrisées – en entreprise sont loin d’être légion pour l’heure.

Quelle base pour quel langage ?

Troisième et quatrième tendances, Victor Coustenoble s’interroge sur le choix des bases et celui des langages de requêtage. Il constate notamment que « une intense bataille entre les formats de table tels qu’Apache Iceberg, Delta Lake ou Hudi, est en train de se dérouler. Les éditeurs luttent pour établir leur monopole et influencer les projets open source ». Dans ce domaine, un seul conseil : évitez les adhérences non raisonnées qui vous lient à un fournisseur.

Côté interrogation, SQL continue à dominer largement le paysage. Victor Coustenoble estime toutefois que Spark reste pertinent dans certains contextes tandis que Python conserve son importance. « Les choix d’interrogation des données resteront déterminés par les cas d’utilisation et les préférences des utilisateurs, qu’il s’agisse de data science, data engineering ou business intelligence, chacun optant pour les outils qui correspondent le mieux à ses besoins spécifiques ». Vous m’en direz tant… Une chose est sure : Python a clairement le vent en poupe chez les développeurs et datascientists qui veulent manipuler de la donnée.

Gouvernance et impact de l’IA

Cinquième tendance, Victor Coustenoble revient sur la gouvernance, problématique qui n’a rien de nouveau mais qui prend une nouvelle dimension face à « la menace persistante des ransomwares, mais aussi les droits d’accès, le lineage, le catalogage, la qualité, l’observabilité et l’orchestration des données ». On notera au passage que les liens entre gouvernance de la donnée et cybersécurité de la donnée sont désormais intrinsèquement liés. Microsoft Pureview en est la parfaite illustration. Née sous le signe de la gouvernance de donnée avec le catalogage en fer de lance, la solution est désormais un pilier de l’offre cybersécurité de l’éditeur.

Enfin, dernière tendance, le responsable architecte solutions chez Starburst souligne l’impact de l’IA sur la gestion des données. De fait, sans data, pas d’IA. Mais l’IA pourrait aussi faciliter la gestion de la data, notamment dans le domaine de la gouvernance en aidant à la classification des données ou à les enrichir de métadonnées mais aussi en générant des requêtes SQL à partir de langage naturel, par exemple. De fait, l’IA pourrait considérablement aider les entreprises à mieux exploiter leurs données et nul doute que 2024 marquera un tournant dans ce domaine.

Gouvernance, urbanisation, décentralisation et dé-silotage de la donnée seront au cœur des problématiques des DSI alors que l’IA générative vient bousculer toutes les roadmaps, transformer tous les processus, métamorphoser toutes les expériences…


À LIRE AUSSI :


Dans l'actualité