Hiveo vient de refondre sa plateforme permettant aux donneurs d’ordre de répondre à leur obligation de vigilance en s’appuyant sur l’IDE d’AWS dédié au Machine Learning. À la clef, un environnement plus sécurisé et des développements plus simples et plus rapides.

La loi sur l’obligation de vigilance impose aux entreprises de vérifier certains points de conformité de leurs fournisseurs tous les six mois. En pratique, le donneur d’ordre doit collecter régulièrement autant de Kbis, de déclarations URSSAF et autres dossiers de travailleurs étrangers soumis à l’autorisation de travail qu’il a de fournisseurs et ce pendant toute la durée d’un contrat. « Quand on a une dizaine de fournisseurs, cela prend du temps, mais reste gérable manuellement. Quand on a plus de 20 000 fournisseurs actifs dans sa base achats, cela devient problématique, car il faut non seulement collecter tous les documents, mais également les vérifier et les archiver, l’état pouvant remonter sur les cinq dernières années en cas de contrôle, explique Laurent Lozelli, CTO d’Hiveo. C’est pourquoi des plateformes de gestion de la conformité telles que la nôtre sont apparues pour industrialiser le processus ».

Collecter, vérifier et archiver les informations fournisseurs

Laurent Lozelli
CTO d’Hiveo

Fondée en 2018, Hiveo est une plateforme co-développée par le cabinet de conseil Epsa et l’éditeur de solutions d’achat Oxalys. Elle permet aux fournisseurs de déposer leurs documents dématérialisés une seule fois pour tous leurs donneurs d’ordre présents sur la plateforme. Les premiers évitent ainsi d’avoir à répéter l’opération autant de fois qu’ils ont de donneurs d’ordre. Les seconds disposent d’une solution qui collecte, vérifie et archive les documents pour eux, et qui leur propose des outils de pilotage pour mesurer la conformité de leurs fournisseurs.
Autrement dit, la charge de travail liée à l’obligation de vigilance est considérablement allégée de part et d’autre. D’autant que, comme le souligne Laurent Lozelli « les donneurs d’ordre plus matures sur le sujet ne se contentent pas de demander les documents obligatoires. Pour bien connaitre leurs fournisseurs, ils demandent également des attestations fiscales, des preuves de certifications, des contrats d’assurance, etc. ».

Développements sur mesure de modèles ML pour industrialiser le processus

Dès le départ, Hiveo a opté pour l’industrialisation de l’intégralité du processus, combinant les fonctionnalités d’un OCR au Machine Learning pour identifier la nature du document, vérifier les informations et le classer ensuite dans sa base. Résultat, là où certains concurrents mettent 48h avec un processus manuel, Hiveo intègre un document de fournisseur en quasi-temps réel.

Complètement développée en interne avec des modèles créés à partir de librairies Python et entrainés par les équipes d’Hiveo, la chaine de traitement de la plateforme a également recours aux algorithmes de langage naturel pour gérer les documents qui ne sont pas normalisés, tels les contrats d’assurance de fournisseurs. « Globalement, nous avions deux grandes familles de modèles : classification pour l’identification du type de document et extraction pour localiser l’information qui nous intéresse dans le document et la récupérer ensuite via l’OCR pour l’insérer dans nos bases », précise Laurent Lozelli.

Optimiser la fiabilité et les performances des modèles

« Pour chaque modèle, nous avons défini un seuil de confiance au-dessous duquel un humain est obligé d’intervenir dans le processus pour vérifier la classification effectuée automatiquement par le ML, poursuit le CTO d’Hiveo. Globalement, notre taux de confiance moyen était de l’ordre de 70%, mais avec une fiabilité de 90% sur certains modèles et des taux beaucoup plus bas sur d’autres. De plus certains traitements étaient très longs, notamment sur des documents très peu représentés sur la plateforme. Persuadés de pouvoir optimiser le taux de fiabilité et la latence, nous avons décidé ‘d’ouvrir la boite’ pour redévelopper notre plateforme ».

Avec un existant reposant déjà majoritairement sur les solutions proposées par AWS (environnement microservices, chaine CDI, etc.), Hiveo s’est tout naturellement tourné vers la nouvelle offre SageMaker d’Amazon pour moderniser sa plateforme. Service entièrement géré permettant de créer, de former et de déployer rapidement des modèles, SageMaker est un IDE (Integrated Development Environment) pour Machine Learning. Outre les fonctions classiques de test, de debugging ou encore d’orchestration, la solution propose de nombreux composants pour simplifier et accélérer le développement et l’entrainement de modèles.

Une architecture homogène et plus sécurisée

Il aura toutefois fallu attendre la sortie de Textract, solution d’OCR dopée au ML d’AWS, pour qu’Hiveo décide de refondre son existant. Dans la première version de sa plateforme, la société utilisait des services tiers comme l’OCR de GCP (CloudVision), faute d’équivalent chez AWS. Convaincu par les avantages d’un IDE intégrant tous les outils dont il avait besoin, Laurent Lozelli voulait capitaliser sur son existant AWS pour gagner en simplicité, mais aussi en sécurité. « Avec Textract, nous évitons les transferts de données entre prestataires et avec SageMaker, nous n’avons plus besoin de transférer des jeux de documents sur les PC des développeurs pour créer et tester les modèles. Toutes nos données sont centralisées. Elles restent sur AWS et bénéficient du même niveau de sécurité ».

Gestion allégée et évolution simplifiée

Débutée à l’été 2019, la refonte de la plateforme s’appuie sur les services Lambda et les Steps Functions pour orchestrer les traitements. Trop récente pour qu’Hiveo puisse mesurer réellement les performances en fiabilité des modèles et des gains en temps de traitement, la nouvelle plateforme se concrétise déjà par de nombreux avantages en termes de flexibilité et d’administration. « Auparavant, nos développements étaient hébergés sur des VM que nous devions gérer en fonction des pointes de trafic. Aujourd’hui, c’est SageMaker qui se charge de dimensionner les ressources automatiquement en fonction des besoins, ce qui allège considérablement notre charge de travail », explique Laurent Lozelli. Et d’ajouter « Ce que nous avons fait sur SageMaker nous aurions pu le faire ailleurs en assemblant nos propres briques et en intégrant des modèles pré-entrainés que nous aurions personnalisés avec nos données. Mais nous n’aurions pas travaillé dans un environnement aussi sécurisant qu’un IDE qui gère le versioning de Notebooks, qui favorise l’accélération des développements et qui propose un éventail très large de fonctionnalités, ouvrant des portes sur la suite à donner à notre plateforme ». Typiquement, Hiveo n’exclut pas d’utiliser les fonctionnalités de la brique Ground Truth pour labéliser les documents difficiles sur lesquels ses modèles n’arriveraient pas à se prononcer. Ils pourraient alors être mis en quarantaine pour suivre une chaine de traitement différente incluant une intervention humaine ou encore pour être stockés avant d’être intégrés à un processus d’entrainement.