

Eco
Talend s’attaque aux gros volumes de fichiers
Par La rédaction, publié le 20 juillet 2009
Les données oui, les fichiers moins…Talend, spécialiste open source de l’intégration, sait depuis longtemps transformer de gros volumes d’informations – de l’ordre du téraoctet – stockées en base. Mais en matière de fichiers – pour des opérations de tri, de fusion ou d’agrégation de lignes -, l’éditeur restait limité à quelques gigaoctets.
Les données oui, les fichiers moins…Talend, spécialiste open source de l’intégration, sait depuis longtemps transformer de gros volumes d’informations – de l’ordre du téraoctet – stockées en base. Mais en matière de fichiers – pour des opérations de tri, de fusion ou d’agrégation de lignes -, l’éditeur restait limité à quelques gigaoctets. Une lacune qu’il comble aujourd’hui avec le module MPX (Massive Parallel Extension), capable de trier un million de lignes en seulement une seconde. Un tel ratio peut s’avérer utile pour “ nettoyer ” les tickets d’appels des opérateurs par exemple.
“ Jusque-là, c’était la machine virtuelle de notre architecture Java qui restreignait les performances. Elle n’acceptait que 4 Go de RAM, et n’exploitait donc pas totalement les infrastructures physiques des serveurs ”, détaille Fabrice Bonan cofondateur et directeur général de Talend. Pour résoudre ce problème, l’éditeur a choisi de court-circuiter sa machine virtuelle Java en confiant les traitements à un module externe.
Une version pour chaque OS et matériel
Développé en C et en OCaml, ce binaire couvre une dizaine d’actions liées à la transformation de fichiers (contre une quinzaine dans la version en Java). “ Avec ce nouveau binaire, nous exploitons pleinement les 64 Go de mémoire vive des machines. Mais nous ne bénéficions plus de la portabilité de Java. Nous proposons donc une version pour chaque système d’exploitation et matériel ”, poursuit-il. A noter que le nouveau composant open source est payant. Il a nécessité trois années/homme de développement.
Intégration de données.
Produit : MPX.
MPX (Massive Parallel Extention) de Talend : module de traitement de fichiers. Supporte les modes 32 et 64 bits, les systèmes d’exploitation Windows, AIX, Red Hat et Open Solaris, ainsi que les processeurs AMD, Intel et Sparc.
A partir de 10 000 euros par utilisateur.
Synsort, Nsort (revendu par Informatica) et Ab Initio.