Data / IA
L’acquisition de Confluent par IBM éclaire l’importance stratégique de la donnée en mouvement
Par Laurent Delattre, publié le 09 décembre 2025
En mettant 11 milliards sur la table pour Confluent, IBM envoie un signal clair : sans data streaming industriel, pas d’IA d’entreprise crédible. Kafka, watsonx.data et cloud hybride deviennent les pièces maîtresses d’un SI où chaque décision automatisée doit coller à la réalité en temps quasi réel. Décryptage d’une des principales acquisitions de l’année…
En s’offrant Confluent pour 11 milliards de dollars, IBM ne signe pas une acquisition de plus dans la tech. Le groupe met la main sur une brique en passe de devenir centrale dans les architectures modernes : le data streaming, c’est-à-dire la capacité à faire circuler, traiter et gouverner des flux continus de données entre applications, datalakes, outils analytiques et moteurs d’IA.
Pour un DSI, l’enjeu dépasse largement le seul périmètre de technologies comme Apache Kafka. Il rappelle aux DSI que sans colonne vertébrale temps réel, il n’y aura pas d’IA d’entreprise réellement industrialisée, ni de gouvernance de la donnée à la hauteur des exigences réglementaires et de souveraineté actuelles.
Le data streaming, colonne vertébrale de l’IT, de la BI et de l’IA
Pendant des décennies, l’IT a été pensée à partir de données « au repos ». On extrayait des informations de systèmes transactionnels, on chargeait des entrepôts la nuit, on rafraîchissait des tableaux de bord à intervalle fixe. Ce modèle batch reste utile, mais il ne suffit plus.
Les applications cloud-native, les architectures microservices, l’IoT, les applications mobiles, les logs de sécurité, les événements métiers génèrent désormais un flux continu de données. C’est ce flux qui alimente la détection de fraude en temps réel, la logistique fine, la maintenance prédictive, les moteurs de recommandation, la supervision de la cybersécurité. Et c’est ce même flux qui, demain, viendra nourrir en permanence nos agents IA et autres assistants copilotes, leur offrant un contexte réellement et indispensablement à jour.
Dans ce paysage, le data streaming s’affirme comme la couche transversale dont on ne pourra plus se passer. Il relie des systèmes hétérogènes, synchronise des univers historiquement séparés (opérationnel, analytique, cybersécurité…) et fournit la matière première à des décisions automatiques. Sans cette couche, l’IA restera cantonnée à des projets expérimentaux qui travaillent sur des copies figées de la réalité et continuera allègrement d’halluciner.
Kafka, le standard de la donnée en mouvement
C’est dans ce contexte qu’Apache Kafka s’est imposé. À l’origine, Kafka n’est qu’une réponse d’ingénierie chez LinkedIn pour absorber des volumes massifs d’événements avec une faible latence. Très vite, le projet open source va dépasser ce cadre et devenir le standard de facto de la donnée en mouvement dans les grandes entreprises.
Kafka n’est pas un simple bus de messages. C’est un journal distribué, persistant et partitionné. Il décorrèle totalement producteurs et consommateurs : les applications écrivent des événements dans des topics, les consommateurs les lisent quand et comme ils le souhaitent. Les événements peuvent être conservés plus ou moins longtemps, relus, rejoués, agrégés. Un même flux peut alimenter un moteur de scoring en temps réel, un dashboard, un datalake et un système de détection d’anomalies.
Ce que Kafka a changé, c’est la manière de penser l’architecture. Le SI n’est plus seulement un ensemble d’applications qui se parlent en point à point ou via un ancestral ESB (Enterprise Service Bus), mais un tissu événementiel où chaque changement d’état devient un signal exploitable. La frontière entre données opérationnelles et données analytiques s’estompe : ce sont deux vues d’un même flux. Un flux qui peut aussi, surtout, alimenter les IA en quasi-temps réel.
Confluent, l’industrialisation de Kafka pour les grands comptes
L’éditeur Confluent est né de cette bascule. Fondée par les créateurs même de Kafka, la startup est partie d’un constat : Kafka tel quel est puissant, mais brut. Pour en faire la colonne vertébrale d’un SI, il faut bien plus qu’un cluster de brokers open source. Confluent va donc construire autour de Kafka tout ce qui manque aux DSI : des distributions optimisées, des consoles d’administration, des capacités avancées d’observabilité, un registre de schémas, des catalogues de flux, des connecteurs prêts à l’emploi (vers les grandes bases de données, les ERP, les CRM, les services cloud et les data warehouses), sans oublier des moteurs de traitement comme ksqlDB ou des intégrations avec Flink.
Autre évolution clé, avec son Confluent Cloud, Confluent a rendu Kafka « consommable » en mode service managé multi-cloud, sans pour autant abandonner ses offres on-premises.
C’est ainsi que dans près de 6500 entreprises, Confluent a progressivement remplacé une collection de pipelines maison et de jobs batch par une plateforme unique de streaming, gouvernée, opérable et intégrée au reste de l’écosystème data.
IBM ajoute une pièce de plus à un puzzle cohérent
Vu d’IBM, Confluent est tout saud une opportunité isolée. C’est une pièce supplémentaire dans une stratégie de modernisation du SI entamée avec le rachat de Red Hat et poursuivie depuis avec les acquisitions d’Apptio, HashiCorp et plus récemment DataStax. Red Hat apporte le socle open source et le cloud hybride, Apptio la vision économique du cloud, HashiCorp l’automatisation et la sécurité multi-cloud, DataStax la gestion de données distribuées à grande échelle. Confluent vient compléter ce dispositif sur la dimension temps réel.
IBM cherche clairement à se positionner comme un fournisseur de plateforme complète pour l’IA d’entreprise, de l’infrastructure à la gouvernance en passant par les données et les modèles. En rachetant le leader de facto du streaming Kafka d’entreprise, le groupe sécurise une brique critique qu’il aurait de toute façon dû intégrer de près à sa plateforme watsonx (il avait d’ailleurs commencé à le faire avec StreamSets et WebMethods mais aussi au travers de partenariat, sans pour autant proposer un vrai support natif de la « data in motion »).
Cette acquisition éclaire au passage encore un peu plus la stratégie du groupe depuis le split IBM/Kyndryl : montée en puissance des logiciels et des services cloud à forte marge, recentrage sur des briques jugées stratégiques pour les grands comptes, en particulier dans les secteurs régulés.
Une acquisition clé pour watsonx.data
Car finalement, le rachat de Confluent est avant tout destiné à enrichir l’offre « Watsonx.data », le lakehouse hybride et ouvert d’IBM, pensé pour l’ère de l’IA, capable de fédérer données structurées et non structurées, qu’elles soient sur site, dans le cloud ou chez des partenaires.
Or qui dit « ère de l’IA », dit infrastructure à même de servir l’appétit de nombreux agents IA opérationnels. Or un agent qui gère une réclamation doit savoir en temps réel si un remboursement vient d’être validé. Un copilote industriel doit intégrer des alertes issues de capteurs minute par minute et non la nuit par le truchement d’un batch. Un moteur de décision marketing doit corréler un événement sur le site web avec des signaux venant du SI interne sur l’instant.
Confluent permet à watsonx.data de combler un trou dans la raquette. Le data lakehouse va désormais se nourrir en continu de flux Kafka, réconcilier données en mouvement et données stockées, appliquer des règles de gouvernance cohérentes sur les deux, exposer aux agents d’IA une vision unifiée de la réalité, à la fois historique et temps réel. Le discours d’IBM sur la « smart data platform » bâtie pour l’IA prend une dimension plus crédible avec un tissu de streaming industriel derrière.
Effets de bord sur le marché, Confluent et l’open source en Europe
Bien évidemment, cette acquisition – hautement stratégique comme on le voit – vient immédiatement renforcer IBM sur un terrain où les hyperscalers étaient très offensifs. AWS (avec Kinesis et MSK), Microsoft (avec azure Event Hubs et Azure Stream Analytics) et Google (avec Pub/Sub dans BigQuery et Dataflow) disposent chacun de leurs propres services de streaming, ainsi que d’offres Kafka managées. L’arrivée de Confluent dans le giron IBM crée un acteur capable de proposer une plateforme de streaming multi-cloud, intégrée à une stack d’IA d’entreprise, soutenue par un réseau de services global à même de servir des scénarios de déploiement très hybrides ou on-premises.
Pour les hyperscalers, Confluent restera probablement un partenaire clé, mais devient aussi un différenciateur pour un concurrent. On peut s’attendre à une mise en avant accrue de leurs services natifs, et à une attention renouvelée aux distributions Kafka alternatives comme Redpanda ou Aiven.
Enfin, il y a la question de l’open source et de la souveraineté européenne. Kafka reste un projet Apache, sous licence ouverte. Mais la valeur ajoutée industrielle se concentre de plus en plus dans des couches « sources disponibles » ou propriétaires, que ce soit chez Confluent ou chez d’autres. En rassemblant dans son portefeuille des briques majeures issues de l’open source (Red Hat Linux, Kubernetes, Terraform, Cassandra, Kafka), IBM concentre désormais un pouvoir important sur l’industrialisation de ces composants.
Pour les DSI européens, qui doivent composer avec AI Act, NIS2, DORA, Data Act et des exigences de souveraineté, l’acquisition de Confluent par IBM vient accélèrer l’émergence de plateformes data-IA cohérentes, capables de traiter la donnée en mouvement et la donnée au repos sous un même cadre de gouvernance voire de souveraineté numérique. Jusqu’ici, IBM a su jusqu’ici rester arrimé aux standards ouverts sans chercher à « propriétariser » les briques clés des infrastructures modernes acquises ces dernières années. Et l’entreprise a tout à gagner à persévérer dans cette voie, surtout dans un contexte géopolitique où les entreprises européennes s’inquiètent chaque jour un peu plus de leur dépendance aux services cloud américains et donc indirectement aux décisions du gouvernement américain.
Avec Confluent, IBM n’achète pas seulement un spécialiste du streaming. Il achète la promesse que, dans ses architectures pensées pour les déploiements hybrides, plus aucune décision d’IA ne sera prise sur une réalité obsolète. Aux DSI de décider désormais s’ils veulent confier cette promesse à un seul fournisseur ou l’inscrire dans une stratégie multi-acteur rigoureusement gouvernée mais difficilement gouvernable.
À LIRE AUSSI :
À LIRE AUSSI :
