Data / IA

Adieu au gigantisme LLM ? Les entreprises misent sur l’IA sur mesure des SLM

Par Marie Varandat, publié le 05 août 2025

Tandis que les grands modèles IA (LLM) plafonnent pour cause de gigantisme et de complexité, les petits modèles (SLM) redessinent l’avenir de l’IA en entreprise. Déployés en local, ajustés sur mesure, ils semblent plus à même de transformer des contraintes techniques en avantages concurrentiels.

En novembre 2022, la sortie de ChatGPT transformait notre monde. Soudain, le grand public et les entreprises découvraient l’incroyable potentiel des LLM, ces gigantesques modèles génératifs de langage capables de nous comprendre et de s’exprimer dans à peu près n’importe quelle langue avec une aisance bluffante. Et l’IA imaginée par la science-fiction devenait palpable. Tout au long de l’année 2023, l’enthousiasme des chercheurs se concrétisait avec une incroyable célérité : géants de la tech et start-up se lançaient dans une course aux modèles toujours plus vastes. À l’époque, Sam Altman envisageait qu’une intelligence artificielle générale (AGI) pourrait émerger en deux à trois ans grâce à une montée en échelle prévisible.

Mais patatras… en 2024, les pionniers des LLM découvrent l’existence d’un plafond de verre. Le constat est amer : malgré des investissements de centaines de millions de dollars, les progrès des LLM deviennent marginaux. Google abandonne « Gemini 1.5 Ultra », Anthropic met en pause « Claude Opus » et OpenAI tergiverse sur le futur de GPT-5. Pire encore, c’est une nouvelle génération de modèles plus petits – les SLM – qui s’impose. Déployables en local, ces modèles se révèlent simples à personnaliser et parfaitement adaptés aux besoins spécifiques des entreprises. Et aujourd’hui, en 2025, les petits modèles n’ont plus grand-chose à envier à leurs titanesques aînés : ils sont multimodaux, multilingues, et commencent même à embarquer (tels Phi-4 de Microsoft et Granite 3.2 d’IBM) des techniques de raisonnement avancées utilisées pour repousser les limites actuelles des LLM.

Les grands modèles font leur retour (Gemini 2.5 Pro, Claude 4 Opus, et très bientôt GPT-5) mais en trichant : ils n’évoluent plus significativement en tailles mais s’enrichissent de nouvelles techniques de raisonnements qui les rendent plus intelligents. Des techniques qui commencent par ailleurs à redescendre vers les SLM.

Petits mais costauds

« Les LLM possèdent une vaste connaissance générale, mais manquent de spécialisation, produisant des réponses souvent imprécises – c’est “l’intelligence générale”. À l’inverse, les SLM, conçus pour des domaines spécifiques, représentent “l’intelligence des données », déchiffre Dael Williamson, EMEA CTO de Databricks.

En somme, « les SLM excellent dans un domaine spécifique, mais peinent face aux LLM en connaissances générales et compréhension du contexte global », résume David Szegedi, field CTO France de Red Hat. Mais parce que, dans les entreprises, les compétences spécialisées sont souvent plus utiles que les connaissances générales, les petits modèles y trouvent naturellement leur place. « Plus économiques, rapides et précis pour des tâches ciblées, ils sont indispensables là où efficacité et exactitude sont primordiales », constate ainsi Dael Williamson.

Plus petits, ils sont aussi moins consommateurs de ressources, plus rapides à l’exécution et s’alignent mieux avec la nécessité de rendre nos IA plus frugales en énergie. Surtout, ils n’ont plus besoin d’infrastructures matérielles gigantesques et trouvent leur place dans les datacenters d’entreprise. « Les clients industriels et bancaires souhaitent déployer des modèles sur leurs propres infrastructures principalement pour réduire les coûts, non pour des questions de souveraineté ou d’idéologie open source. Après avoir testé GPT-4o, beaucoup constatent l’impossibilité budgétaire de déployer un chatbot pour des milliers d’utilisateurs », confirme ainsi David Szegedi.

L’important, c’est la personnalisation

Toujours grâce à leur « petitesse », ils peuvent être plus aisément personnalisés pour les besoins de l’entreprise à partir de son savoir informationnel, et donc plus « ancrés » dans sa réalité business. Ils se montrent ainsi plus précis dans leurs propositions tout en réduisant le risque de réponses farfelues (« hallucinations ») qu’un modèle trop généraliste tend à produire lorsqu’il manque d’informations directes.

Cette personnalisation des modèles à des contextes spécifiques devient l’un des grands enjeux des DSI et des plateformes du marché comme Hugging Face, Vertex AI (Google), AI Foundry (Microsoft), SageMaker (AWS), watsonx (IBM), La Plateforme (Mistral AI) ou NVidia AI Enterprise. Toutes cherchent aujourd’hui à populariser dans les entreprises ces techniques, qui se multiplient. Certaines consistent à réentraîner partiellement les modèles (Transfer learning, few-shot learning, continuous learning, distillation), d’autres à enrichir les prompts de contextes (Prompt engineering, in-context learning), d’autres à ajuster les réglages avancés (hyperparameter learning, inference settings)…

« RAG et fine-tuning dominent largement le paysage de la personnalisation de l’IA en entreprise, grâce à leur efficacité prouvée et leur grande souplesse », constate toutefois Dael Williamson. Nécessitant à l’origine des expertises rares, ces techniques sont désormais plus aisées à maîtriser grâce à de nouveaux outils interactifs. Bien adaptée à l’ancrage d’un modèle sur des bases documentaires volumineuses, la RAG (Retrieval Augmented Generation) combine un modèle de langage avec une base de données spécifique à l’entreprise. Le modèle recherche d’abord les informations pertinentes dans cette base avant de générer une réponse. LightOn a développé Visual RAG pour étendre l’usage du RAG aux requêtes multimodales, incluant visuels, tableaux et graphiques. La solution permet d’exploiter des contenus visuels auparavant inaccessibles aux systèmes RAG classiques.

Le « fine-tuning », qu’il soit complet ou optimisé via des techniques PEFT (comme LoRA ou P-Tuning), consiste à réentraîner un modèle pré-entraîné sur les données de l’entreprise. La technique est délicate à maîtriser, mais des plateformes comme celle de Mistral AI proposent désormais des assistants de fine-tuning permettant d’affiner un modèle en quelques clics et avec quelques fichiers de données.

Rapprocher modèles et données

En localisant l’intelligence au plus près des données (on-premise ou edge), les SLM offrent aussi aux entreprises un meilleur contrôle. Le choix entre un déploiement interne et le cloud s’explique par des enjeux de sécurité, de confidentialité et de souveraineté, mais également par des impératifs techniques qui orientent la conception des modèles d’IA (qu’ils soient déployés en cloud, on-premise ou via des plateformes SaaS). « La différence entre un LLM et un SLM ne repose pas uniquement sur le nombre de paramètres, mais aussi sur l’intention qui a présidé à la conception du modèle », rappelle ainsi Kurt Muehmel, head of AI strategy de Dataiku. « Contrairement au LLM, développé sans limites de ressources, un SLM est conçu dès le départ avec des contraintes techniques – taille, coût, consommation – pour répondre à des besoins spécifiques de déploiement, par exemple sur un seul GPU, voire CPU, ou directement en périphérie (Edge). »

David Szegedi

Field CTO France de Red Hat

« Le portrait-robot de l’IA Générative en France, chez les clients Red Hat, c’est un modèle ouvert Mistral 7B qui tourne sur du Kubernetes avec du RAG et des données clients. »

Le choix entre déploiement interne ou cloud dépend avant tout des contraintes métiers et techniques, souligne également Kurt Muehmel. « Les industriels, par exemple, privilégient l’on-premise pour garantir la continuité de service en cas de coupure réseau. À l’inverse, le cloud facilite la scalabilité. Mais la tendance la plus forte aujourd’hui, c’est le SaaS avec des plateformes IA qui regroupent l’orchestration des workflows, la gestion des données, l’accès à une multitude de modèles, la sécurité et les outils collaboratifs. L’entreprise se concentre ainsi sur ses cas d’usage tout en bénéficiant des avantages du cloud : scalabilité, déploiement rapide, gestion simplifiée, etc. »

LLM, SLM… Derrière ces sigles se cachent des approches complémentaires de l’IA. Le « one size fits all n’existe pas », nous rappelait Jean-Philippe Faure, le DSI d’Eiffage. L’art naissant de l’IA en entreprise consiste à assembler le bon puzzle de modèles (LLM et SLM), d’infrastructures (locales ou cloud) et de gouvernance (ouverte ou propriétaire) pour créer de la valeur de façon éthique et durable.

Facile à dire, mais complexe dans un univers technologique effervescent, où modèles et technologies progressent toutes les semaines, où les grands acteurs tentent d’imposer leurs plateformes sans avoir pu travailler la maturité des briques qui les composent, et où partir des besoins métiers est rendu compliqué par le fait que les métiers euxmêmes ignorent encore le potentiel des IA. Mais une réalité émerge toutefois : « À mesure que l’IA devient plus capable, les modèles eux-mêmes deviennent davantage une commodité, et toute la valeur est créée par la manière dont vous dirigez, ancrez et affinez ces modèles avec vos données métiers et vos flux de travail », promet Satya Nadella, CEO de Microsoft. Au travail ?


3 Questions à Pushpa Ramachandran, vice-président de Wipro

Comment aidez-vous les entreprises à choisir le bon modèle ?

Nous les guidons en fonction de leur contexte métier, des langues nécessaires, de leur budget et surtout du niveau de précision attendu. Un modèle plus petit et bien spécialisé peut être plus performant, moins coûteux et plus fiable qu’un grand modèle généraliste.

Quelle(s) méthode(s) recommandez-vous pour personnaliser un modèle ?

Le choix dépend du domaine, de la langue, de la qualité des données et de la complexité de mise en oeuvre. Certains projets se prêtent bien au finetuning ou à la distillation ; d’autres nécessitent un entraînement sur mesure. Pour un de nos clients en Thaïlande, par exemple, un fine-tuning multilingue (anglais- thaï) a provoqué des réponses instables. Nous avons dû revoir notre approche et entraîner le modèle uniquement sur des données bien séparées en anglais et thaï pour obtenir des résultats fiables.

Quelles innovations vont, selon vous, transformer les usages de l’IA ?

Les agents IA autonomes, capables de gérer des processus de bout en bout, vont jouer un rôle clé. Associés à des orchestrateurs et des marketplaces spécialisés, ils permettront d’automatiser des fonctions entières, comme le marketing, les ressources humaines ou la finance, tout en ouvrant la voie à de nouveaux services à valeur ajoutée.


Qu’est-ce qu’une IA open source ?

Dans un contexte géopolitique trouble et de quête de souveraineté, de nombreux DSI se tournent vers les modèles « ouverts ». Mais que signifie réellement « ouvert » pour l’IA ? D’après la définition de l’Open Source Initiative (OSI), un modèle doit rendre librement accessibles et modifiables son code source complet (d’entraînement et d’inférence), ses poids et paramètres ainsi que les détails sur des jeux de données d’entraînement (sans imposer néanmoins la publication de celles-ci).
En pratique, aucun modèle IA moderne ne correspond exactement à cette exigence. Des modèles comme Llama, Mixtral, Grok, Phi-4, Gemma ou Granite se qualifient d’« ouverts », mais sont en réalité « open weight » : ils se contentent d’exposer leurs paramètres et poids et restent souvent soumis à des licences plus ou moins restrictives. Ils offrent ainsi plus de transparence et de contrôle de déploiement qu’un modèle propriétaire, sans nécessairement être plus personnalisables, car aujourd’hui, même les modèles propriétaires peuvent être « fine-tunés ».


Les benchmarks IA ne reflètent pas la valeur, mais les progrès

Les benchmarks jouent un rôle important dans le développement de l’IA. Ils permettent de comparer différentes approches, de suivre les améliorations des modèles et d’identifier leurs points faibles. Ils offrent des mesures objectives et reproductibles sur des cas d’usage définis tout en stimulant la concurrence. Néanmoins, ils n’appréhendent qu’un angle partiel des capacités d’un système et sont susceptibles d’être biaisés par une optimisation excessive des prompts, faussant ainsi la véritable performance.
La Loi de Goodhart montre que lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure. Surtout quand le marketing s’en mêle ! Les débats autour des performances annoncées et réelles de LLama 4 doivent rappeler aux DSI que les résultats d’un benchmark IA ne reflètent pas les performances d’un modèle en usage réel. Les scores ne doivent pas être fétichisés. Il appartient aux DSI de les compléter par des tests contextualisés, alignés sur les besoins opérationnels réels.


Un modèle personnalisé, ça se cuisine…

« J’aime expliquer les pratiques de personnalisation des modèles à travers l’analogie de la pâtisserie :
Choisir la bonne recette : Commencez avec un modèle de base solide qui performe bien sur différentes tâches.
Rassembler les bons ingrédients : Utilisez des données de haute qualité, spécifiques au domaine, qui correspondent au problème à résoudre.
Débuter par de petites fournées : Testez avec des modèles plus petits avant de monter en échelle pour éviter le gaspillage de ressources.
Suivre des instructions claires : Assurez-vous que les instructions données au modèle soient simples et interprétables.
Goûter et ajuster : Validez régulièrement et affinez selon les performances sur les jeux de test.
Utiliser les bons ustensiles : Appliquez des méthodes d’apprentissage efficaces (ex. LoRA, PEFT) pour améliorer l’apprentissage avec moins de ressources. »
Dael Williamson, EMEA CTO, Databricks




À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights