Data / IA
Le Crédit Agricole développe le monitoring de ses solutions IA
Par Alain Clapaud, publié le 10 janvier 2024
Dans le cadre de sa démarche de fabrication de solutions d’intelligence artificielle nativement industrielles, le datalab du groupe Crédit Agricole a créé une brique pour leur suivi. Son objectif est d’assurer un monitoring à la fois des métriques « IT » des solutions IA, ainsi que de toute baisse avérée ou potentielle de leur pertinence métier.
Baptisée MonIA, la console de monitoring des solutions IA est le produit de travaux de R&D du datalab du groupe bancaire. Pôle de référence en matière de conception interne de solutions data et IA innovantes et industrielles, celui-ci a également pour mission de diffuser des solutions communes utilisables par toutes les entités du groupe. « L’idée de proposer cette solution de monitoring est née avec les projets IA menés avec les entités », explique Aldrick Zappellini, group data director et group chief data officer du Crédit Agricole. « Il y a une volonté bien légitime d’aller au plus vite en production pour délivrer de la valeur. Si chacun est conscient de la nécessité d’intégrer une composante de monitoring en production, le besoin de rapidité aboutit régulièrement à faire l’impasse sur celle-ci. »
Les métriques d’une IA sont scrutées à la loupe lors de la création et de la mise en production, mais Matthieu Capron, chef de projet data/IA au Crédit Agricole, estime que celles-ci doivent être suivies tout au long de la vie de la solution. Le monitoring d’une solution IA doit donc aussi détecter la dérive des modèles ainsi que des données en entrée. « L’intelligence artificielle se base sur les données pour produire un résultat. La première exigence est de suivre à la fois leur qualité et leur évolution au fil du temps. Leurs propriétés de manière générale sont évaluées à un instant t, mais ces dernières années, avec notamment la crise Covid, ont montré que des changements rapides sont toujours possibles, et qu’en conséquence un modèle entraîné à un certain moment n’est plus forcément pertinent quelques mois plus tard. »

Le DataLab a été créé début 2016 dans le but d’expérimenter les usages de la data et de l’IA pour le compte du Crédit Agricole. Il est le pôle de référence du groupe en matière de création de solutions internes data et IA innovantes, et nativement industrielles.
Au delà des métriques IT traditionnelles comme la durée d’exécution, la consommation CPU et de RAM, l’IA réclame le suivi d’autres indicateurs. Par exemple, celui des performances statistiques des modèles, notamment leur précision et le nombre de fois où chacun d’eux est parvenu à prédire correctement un événement. En couplant l’ensemble de ces métriques, les data scientists, data engineers et équipes métier disposent de données pour investiguer et évaluer la gravité d’une situation détectée. « Il faut identifier le plus rapidement possible un problème plutôt que d’attendre que le métier le remonte au bout de plusieurs mois au travers d’un constat de dégradation des performances, rendant la solution IA inutile », ajoute Matthieu Capron.
Une plateforme sur-mesure créée par une équipe pluridisciplinaire
Le DataLab Groupe Crédit Agricole s’est mis à la recherche d’une solution efficace, simple à mettre en oeuvre par les développeurs, pour éviter des risques d’arbitrage au moment du PMV (project management for value).
Après avoir évalué les solutions du marché fin 2021, il a acquis la conviction que tous les cas d’usage de l’IA mis en œuvre dans le groupe ne pouvaient être traités par une solution unique.
Une squad pluridisciplinaire a alors été constituée pour mener à bien le projet de création de la plateforme MonIA. « Cette démarche pluridisciplinaire était importante car nous avons beaucoup d’entités avec des équipes décentralisées, précise le chef de projet. Nous avons souhaité travailler avec l’ensemble des acteurs métiers, techniques du groupe pour avoir une solution qui puisse devenir un asset commun. »
L’équipe du projet MonIA a conçu une architecture générique et l’a implémentée afin de traiter un maximum des cas d’usage du groupe. Elle s’est appuyée sur les technologies Kafka, AirFlow, MongoDB, ElasticSearch et Kubernetes pour la bâtir. « Afin de faciliter les interactions entre cette plateforme et notre existant, nous avons intégré une API REST pour échanger des données avec les chaînes de traitement IA dans les deux sens. L’idée est de pouvoir déclencher des alertes pour lancer le réapprentissage d’un modèle. L’interaction avec les utilisateurs se fait via des dataviz présentant tous les indicateurs nécessaires pour mener leurs analyses. »
Un MVP (produit minimum viable) a été développé sur quelques cas d’usage prioritaires. La première solution monitorée par MonIA consiste à anticiper de six mois les difficultés financières que pourraient avoir des clients particuliers, à partir des données bancaires. La chaîne de traitements est développée dans le langage Spark pour être exécutée sur une plateforme big data. Elle est exploitée mensuellement par les caisses régionales de Crédit Agricole.
La deuxième solution IA monitorée est bien différente. Il s’agit de la classification automatique des justificatifs remis par les clients dans les différents parcours bancaires.
Aldrick Zappellini
Group data director et group chief data officer
du Crédit Agricole
« Il est fondamental de privilégier l’automatisation et de ne faire intervenir l’humain qu’à bon escient. C’est à cette condition que l’on peut prévenir le risque et continuer à déployer des fonctionnalités d’IA de manière massive dans nos parcours et processus. »
À chaque étape de la chaîne de modélisation et d’application de l’IA, une déclaration est envoyée via une API vers la plateforme de monitoring. Ce mode de fonctionnement permet d’avoir une grande généricité : il est possible d’enrichir les métriques sans remettre en cause l’architecture et le fonctionnement de l’application de monitoring et des chaînes de traitement surveillées. « À chaque étape, on communique des informations sur la qualité des données d’entrée ainsi que sur les sorties du modèle. La plateforme réalise une agrégation des différents indicateurs sur plusieurs niveaux afin d’alimenter les prises de décision », explique Walid Erray, responsable de la partie data science analytique de ce projet au DataLab.
La plateforme dispose de la capacité de qualifier les données d’entrée avec des indicateurs adaptés à chaque typologie : données tabulaires, time series, logs ou d’autres données non structurées. « Nous avons enrichi le volet qualité des données par une détection de valeurs atypiques ou de biais dans une démarche d’IA responsable », ajoute-t-il, précisant que la plateforme peut également détecter le « drift » de données, lorsqu’un écart apparaît entre les données soumises au modèle lors du « run » et celles sur lesquelles l’apprentissage a été mené.
Sur le volet performances statistiques, Walid Erray estime disposer de fonctionnalités à l’état de l’art. « Nous délivrons notamment une détection de drift de concept que l’on peut identifier en analysant le changement des variables importantes d’un modèle ou les probabilités de changements pour un même individu d’un run à un autre. » Dès lors, il faut analyser cette information avec le métier pour statuer sur la validité du modèle ou l’intérêt de le mettre à jour.
Le Projet en Chiffres
50 collaborateurs au DataLab Groupe
50 projets ou missions, environ, menés par an pour le DataLab Groupe
15 modèles IA monitorés
L’Entreprise Crédit Agricole
Activité : Banque
Effectif : 145 000 collaborateurs
CA : 16 Md€ en 2022 (revenus sous-jacents : 38,2 Md€)
À LIRE AUSSI :
