Présenté comme le successeur de MapReduce, Dataflow est le nouvel outil de collecte, transformation et analyse de données à grande échelle de Google. Il est le pivot central de sa nouvelle plateforme cloud, présentée cette semaine à la conférence annuelle I/O.

Ce service est capable de traiter de grandes quantités de données en mode batch et streaming, contrairement à MapReduce qui ne fonctionne qu’en batch.

Selon Google, Dataflow peut remplir ce rôle d’analyse en temps réel sans que les équipes d’exploitation n’aient à surveiller l’infrastructure sous-jacente en permanence.

Google Cloud Dataflow repose sur Apache Flume, un programme d’agrégation de données écrit en Java. Une seconde technologie déjà utilisée par Google est au cœur de Dataflow, Millwheel. Il s’agit d’un framework de traitement du flux des données en temps réel.

À travers ces deux technologies, toutes les informations traitées par Dataflow peuvent ensuite être réinjectées dans BigQuery, l’outil d’analyse et de requête SQL de Google. De nombreux cas d’utilisation s’offrent, par la suite, aux futurs utilisateurs de Dataflow. Il aurait déjà permis de procéder à l’analyse des sentiments de supporters de la Coupe du monde de Football à partir de tweets publiés sur le réseau social.