Data / IA
Phospho, une plateforme analytics pour les LLM
Par Alain Clapaud, publié le 09 juin 2025
Monitorer les applications LLM en production est devenu un enjeu pour les entreprises qui ont déployé de nombreuses IA. Phospo propose un outil d’analyse pour générer des KPI métiers qui permettent d’évaluer la qualité des réponses de ces IA.
Les cas d’usage des LLM en entreprise sont aujourd’hui extrêmement divers. Parmi
ceux-ci, le copilote mis à disposition des collaborateurs pour répondre à leurs questions dans l’exercice de leurs tâches quotidiennes, l’assistant dédié au développement d’applications ou le chatbot sur le site web. Or, il est très complexe d’évaluer l’efficacité de ces IA, et bien plus encore de calculer leur ROI. Phospho a été créée comme une plateforme d’analyse permettant de pallier cette difficulté, en particulier pour l’IA conversationnelle. La start-up vise à devenir le Google Analytics ou le Contentsquare pour cette famille d’applications. « Nous permettons aux product managers, product owners et aux équipes data science de réaliser facilement des analyses NLP sur les prompts des utilisateurs et les réponses des LLM, explique Paul-Louis Venard, son CEO. Ils sont alors capables d’identifier les principaux cas d’usage, les personas, les centres d’intérêt, etc. Ils pourront ensuite comparer les performances des différents LLM dans plusieurs versions, vis-à-vis de KPI métiers qui dépendent vraiment du cas d’usage. » Les débuts sont prometteurs : depuis sa mise en ligne, il y a moins d’un an, la plateforme a délivré 1,4 million d’analyses.
Les utilisateurs mécontents biaisent la mesure
Selon les concepteurs de Phospho, il existe quatre moyens de mesurer la performance d’un LLM. Le premier consiste à développer des scores sur des heuristiques spécifiques, en se demandant par exemple si le code généré par l’IA compile correctement. Le second repose sur le retour des utilisateurs, via des méthodes d’A/B testing ou de pouces (vers le haut ou le bas) pour évaluer chaque réponse. « Mais le problème est que, passés les tests initiaux organisés par l’équipe de développement, peu d’utilisateurs répondent à ce type de sollicitations et le procédé présente un biais : les mécontents sont ceux qui répondent le plus. »

L’interface de Phospho propose un affichage 3D des nuages de points pour visualiser les clusters calculés selon les cas d’usage, les intentions et sentiments des utilisateurs, les questions auxquelles le chatbot répond, etc.
À ces méthodes, Phospho préfère donc une approche LLM-as-a-Judge : de petits LLM spécialisés viennent chercher l’information dans les messages en entrée ou en sortie du modèle afin d’en extraire des KPI métiers. « Aujourd’hui, nous utilisons des LLM Mistral 7B qui ont fait l’objet d’un fine-tuning et sont dédiés à des tâches précises, et nous réalisons un reinforcement learning en fonction des besoins de nos clients. » Phospho met aussi en œuvre la technique du clustering : l’outil produit des nuages de points pour visualiser les clusters correspondant aux métriques. « La relecture des textes générés par l’IA au travers d’un LLM-as-a-Judge est efficace pour extraire des informations marketing, business et produit qui font sens pour les équipes, explique Paul-Louis Venard. Le clustering est pour sa part bien adapté aux montées d’échelle et à la complexité des données non structurées. » Ces deux techniques sont paramétrables et peuvent produire des métriques métiers, identifier des personas dans la population des utilisateurs, des cas d’usage, ainsi que les données aberrantes. Pour finir, Phospho propose aussi de croiser ces analyses avec des solutions d’A/B testing. Cette option permet d’évaluer en production un changement apporté dans l’infrastructure RAG ou dans les prompts et de comparer deux LLM.
LE PITCH
Paul-Louis Venard
Fondateur et CEO de Phospho
Nous permettons aux product managers, product owners et aux équipes data science de réaliser très facilement des analyses NLP sur les prompts des utilisateurs et les réponses des LLM. »
L’ENTREPRISE
CRÉATION : 2023
SIÈGE : Paris
EFFECTIF : 10 collaborateurs
FINANCEMENT : 2,2 M$ levés auprès de Elaia Partners, Y Combinator, Kima Ventures
RÉFÉRENCES : 34 clients dont Marblism et Vocca AI
À LIRE AUSSI :
