Le passage aux SLM et workflows spécialisés recentre la donnée IA sur la qualité et le raffinement, pour plus de performance et durabilité.

Data / IA

Données pour l’IA : une approche différente

Par La rédaction, publié le 19 juin 2025

Face à la croissance exponentielle des volumes de data et la montée en puissance des SLM (Small Language Models) aisément personnalisables par les entreprises, l’accent se déplace désormais vers le raffinement des données, optimisant les processus d’entraînement IA tout en maîtrisant les impacts énergétiques et réglementaires. Le tri, la densification et la classification des logs deviennent des leviers stratégiques pour une IA à la fois performante, durable et conforme.


Par Phil Tee, EVP Innovations en IA chez Zscaler


Quelle que soit la région ou le secteur d’activité, toutes les entreprises cherchent aujourd’hui le meilleur moyen de déployer l’IA pour obtenir des gains d’efficacité ou un avantage concurrentiel.
Jusqu’à présent, la pensée dominante était que plus vous capturiez de données pour alimenter vos modèles d’IA, mieux c’était. Mais alors que les ensembles de données atteignent des tailles en milliards de milliards, il se pourrait que nous soyons à un tournant.
En effet, entre 15 000 milliards et 5 000 milliards de points de données, la taille devient secondaire par rapport à la qualité des données et à leur usage. Dans ce contexte, n’est-il pas temps de repenser notre approche de la donnée pour l’IA ?

L’essor des workflows agentiques et des SLM

Après plusieurs années durant lesquelles les grands modèles de langage (LLMs) ont été au centre de l’IA, une des tendances clés actuelles est le passage aux workflows agentiques et aux Small Language Models (SLMs). Contrairement à leurs homologues LLM multifonctionnels, les SLM peuvent être entraînés sur des jeux de données plus ciblés, ce qui les rend très efficaces pour des tâches ou domaines spécifiques.

Ce changement s’explique en partie par les problèmes de coût et de latence associés aux LLM – sans oublier les implications en matière de sécurité. Avec un chatbot LLM, par exemple, les utilisateurs s’attendent à une réponse en quelques secondes. Or, cela requiert la mobilisation de l’ensemble de l’infrastructure matérielle du LLM, rendant difficile la gestion de 11 000 journaux par seconde avec une latence de quelques secondes. L’approche actuelle privilégie donc des modèles plus petits – prêts à l’emploi ou ajustés.

L’essor des SLM reflète également une approche plus ciblée des requêtes IA par les entreprises – où, au lieu de partir d’une question et de collecter tout ce qui pourrait s’y rapporter, on détermine la réponse attendue puis on crée un workflow pour ne ramener que les données nécessaires, dans un ordre utile.

L’importance de la valeur réelle des données

Ce recentrage stratégique sur une acquisition ciblée des données nous amène naturellement à reconsidérer le débat “qualité versus quantité”. En effet, toutes les données ne se valent pas. Leur valeur provient non pas de leur volume, mais d’une combinaison entre leur profondeur, leur pertinence – et la manière dont elles sont conditionnées.

Les données machines, sous forme de journaux (logs), illustrent bien comment le volume peut nuire à la qualité. Un fichier journal est généralement un ensemble de messages de débogage non structurés, rédigés par des ingénieurs souvent partis depuis. Ces données sont donc très lacunaires, peu informatives. En résumé, la majorité du contenu est inutile, mais de l’or pour l’IA s’y cache. Consommer des paramètres pour du contenu inutile est un mauvais choix ; un pré-traitement qui densifie les logs en éliminant les données superflues est bien plus efficace.

Idéalement, il faudrait un fort volume de données de qualité. Mais même dans ce cas, il ne faut pas trop entraîner les modèles sur un échantillon massif, sous peine de surajustement. Ce phénomène, bien connu des data scientists, correspond au compromis biais-variance, où le raffinement excessif du modèle sur les données d’entraînement entraîne un « choc » face à des données nouvelles.

Concernant les données sources, nous évoluons clairement vers une surabondance. Pour illustrer cela, je prédis que dans quelques années, le trafic total de données sur les réseaux dépassera la production de données cumulée de l’humanité.

Effets secondaires de durabilité liés à la qualité

Comme le l’expliquent de nombreux experts, la technologie est une économie extractive. On a tendance à croire qu’elle est propre et créatrice de valeur – qu’elle crée de la magie à partir de rien. Mais c’est loin d’être le cas. L’IA en particulier est extrêmement gourmande en données (et en calcul) – nécessitant énormément d’énergie et d’eau pour collecter, traiter, entraîner et stocker les données. À titre d’exemple : conserver un téraoctet de données dans le cloud pendant un an génère une empreinte carbone supérieure à un billet d’avion entre Schiphol et New York. Et un téraoctet, ce n’est rien.

Dans ce contexte, toute action visant à recycler les données ou à en extraire plus de valeur au cours du processus IA a un fort impact en matière de durabilité. Dans le cadre de la densification des logs, les données passent d’un état « au repos » à « en mouvement » – on en extrait les métadonnées, on écarte le reste – ce qui permet ensuite de les supprimer plutôt que de les stocker.

Au-delà du stockage, cette réduction massive des données diminue aussi la latence – facilitant le traitement de dizaines de milliers de logs par seconde pour fournir une réponse GenAI en 3 à 4 secondes. Elle répond également au défi croissant de la souveraineté des données – les entreprises étant de plus en plus préoccupées par le transfert et le stockage des données hors de leur pays. Moins de données utilisées et conservées, c’est potentiellement moins de problèmes à ce niveau.

La classification des données – processus d’identification et de catégorisation des données sensibles selon des critères prédéfinis – joue ici un rôle crucial pour éviter d’envoyer inutilement (ou à tort) trop de données vers les outils d’IA. Elle permet aussi d’avoir une meilleure vision des données disponibles.

Une nouvelle approche de la donnée IA

Alors que les volumes de données continuent de croître de façon exponentielle, les entreprises qui prospéreront dans l’économie de l’IA seront celles qui maîtriseront l’art du raffinement – en tirant un maximum de valeur de quantités minimales de données. Cette approche combine plusieurs avantages : amélioration des temps de réponse, réduction des coûts d’exploitation, durabilité accrue, meilleure souveraineté des données et posture de sécurité renforcée.

En adoptant cette philosophie « une donnée IA traitée différemment », les organisations peuvent se positionner à l’avant-garde de la prochaine génération de l’innovation IA, tout en répondant aux grands défis technologiques actuels.


À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights