De l’expert en programmation parallèle à l’utilisateur métier avancé, en passant par les spécialistes Java ou SQL… tous ont à intervenir autour d’Hadoop, dont la complexité dépend de la brique technologique par laquelle on le sollicite.

Hadoop est-il plus complexe à installer et à manipuler que les plates-formes traditionnelles portées, elles aussi, sur l’analyse de données ? La question exige de distinguer trois aspects intrinsèques de cette pile open source : le déploiement de son infrastructure technique, le développement d’applications et l’exploitation de données.

Sur le premier volet, Charles Zedlewski, vice-président produit de Cloudera, ardent promoteur d’Hadoop, fait valoir l’argument de la simplicité : « Il faut être un sacré bon ingénieur pour bâtir soi-même le socle technique d’un programme développé en interne et destiné au traitement en masse de données. Car cela demande de paramétrer des outils de parallélisation, de montée en charge, de fail-over. Avec Hadoop, tous ces services sont nativement proposés dans le framework. » En l’occurrence, par deux de ses éléments phare : un modèle de programmation (MapReduce) et un système de fichiers (HDFS), tous deux hautement distribués.

C’est juste, confirme Julien Cabot, responsable de l’activité finance chez Octo Technology. Pour autant ce dernier rappelle que « des compétences fines en architecture réseaux et serveurs sont requises. Notamment pour déployer les clusters dans Hadoop. Ce dernier point a tendance à être sous-estimé sous prétexte que la pile open source repose sur du matériel banalisé. »

Le big data à la croisée de quatre monde (Source : Octo Technology)