Pour réussir vos projets IA focalisez-vous sur la qualité des data et l'art du prompt

Data / IA

Data et prompt engineering : Les deux piliers d’une IA réellement utile

Par Marie Varandat, publié le 06 août 2025

Réussir en IA ne se résume pas à choisir le bon modèle. Il faut repenser la donnée : la vérité de la BI n’est pas celle de l’IA. La qualité devient relative, dépendante du contexte et de l’usage. Et sans un prompt bien formulé, même la meilleure IA reste muette.

Sans data, pas d’IA. Mais si la question de la quantité de données reste centrale pour les laboratoires qui conçoivent les modèles de fondation, les entreprises, en revanche, sont confrontées à une autre réalité : celle de la qualité. Accéder à une donnée métier fiable, structurée et gouvernée est un prérequis qu’elles connaissent depuis l’ère de la BI.
Pourtant, malgré des infrastructures qui se sont modernisées, elles ne sont pas toujours armées pour répondre aux exigences de l’IA.

De la donnée « vraie » à la donnée utile : la notion de qualité évolue

« La notion de qualité des données évolue profondément avec l’IA, explique Sylvie Faucillon, principal advisor en analytics & AI de SAS. On ne parle plus seulement de données complètes ou techniquement propres : la vraie question, c’est leur pertinence pour un usage métier donné. Nous considérons qu’une donnée est de qualité si elle permet de résoudre un problème opérationnel. La qualité devient relative, contextuelle, orientée valeur. »

De plus, il n’est pas rare que les jeux de données existants en entreprise présentent des « déséquilibres de classe ». Typiquement, dans les jeux de données « réelles » des établissements financiers, les cas de fraude sont – fort heureusement – très minoritaires par rapport aux transactions normales. Or, les modèles IA ont tendance à apprendre en se basant sur les schémas majoritaires pour optimiser leur performance globale. En d’autres termes, si 99 % des transactions sont légitimes, un modèle peut atteindre 99 % de « précision » en prédisant toujours « pas de fraude », sans jamais détecter les cas frauduleux, simplement parce que ces derniers sont statistiquement invisibles pour le modèle car noyés dans la masse.

  • Commencer avec la donnée qui compte

    « Chez Dailymotion, nous avons entrepris de repenser en profondeur notre moteur de recherche vidéo, un projet structurant dans lequel l’intelligence artificielle joue un rôle central. Très tôt, nous avons fait le choix de mettre en production une version partielle mais opérationnelle, afin de valider rapidement les premiers résultats. Plutôt que d’attendre l’intégration complète de l’ensemble de notre catalogue — vidéos, playlists, chaînes et hashtags — nous avons commencé par le périmètre le plus critique : les vidéos, qui concentrent l’essentiel des recherches. Grâce à cette approche ciblée, un A/B test rigoureux et un indicateur métier clair (le taux de clic sur les recherches), nous avons pu mesurer l’impact dès le départ. Résultat : 95 % de la valeur captée avec seulement 25 % des données de notre catalogue. L’enjeu n’est pas de viser la perfection d’emblée, mais de sécuriser l’efficacité à chaque étape, en restant lucide et mesuré dans l’évaluation. »
    Noémie Bocquet
    Data product director chez Dailymotion

Un marché d’outils en plein essor, à manier avec rigueur

« Les données créées de façon synthétique permettent de résoudre ce genre de problème, indique Sylvie Faucillon. Elles ne servent pas uniquement à générer de grands volumes pour entraîner les modèles IA. Leur intérêt principal est de rééquilibrer les jeux de données, notamment lorsqu’on fait face à des biais, à des classes sous-représentées ou pour remplacer des données sensibles. On peut ainsi améliorer la robustesse et l’équité des modèles. »

Générées par des modèles d’IA sur la base de jeux de données existants, les données synthétiques permettent de simuler des volumes cohérents, réalistes et non-sensibles (données anonymisées). Mais encore faut-il savoir les produire correctement. « Il faut des compétences en data science, en modélisation statistique et une compréhension fine du métier, faute de quoi on risque de créer des jeux de données irréalistes ou inadaptés au problème ciblé, qui faussent l’apprentissage des modèles au lieu de l’améliorer. C’est dans cet esprit que nous avons développé Data Maker, un outil dédié à la génération de données synthétiques équilibrées, respectueuses de la structure statistique et de la confidentialité », ajoute Sylvie Faucillon.

SAS n’est pas le seul éditeur à se pencher sur la question. En plein essor, ce marché se structure rapidement avec des acteurs tels que Mostly AI, Gretel.ai, Statice ou Hazy axés sur les données tabulaires. Certaines solutions intègrent même des mécanismes de confidentialité différentielle, méthode mathématique garantissant qu’aucune information personnelle identifiable ne peut être déduite d’un jeu de données, même après traitement ou recoupement.

Ces outils sont souvent utilisés pour suréchantillonner des classes rares, simuler des événements exceptionnels, ou encore alimenter des environnements de test dans un cadre conforme au RGPD.

Des alternatives open source comme SDV ou CTGAN offrent une approche souvent plus flexible, mais exigent une bonne maîtrise des modèles génératifs et de leurs risques.

Dans la vision par ordinateur, des outils comme Unity Perception, Datagen ou Synthesis AI permettent aussi de générer des images annotées et diversifiées, utiles pour éviter les biais. Certaines solutions combinent même images, textes et sons pour générer des jeux multimodaux.

Aujourd’hui largement adoptée, la génération de données synthétiques permet de fiabiliser, diversifier et sécuriser les données d’entraînement. Attention toutefois, comme la donnée « réelle », elle suppose une gouvernance rigoureuse : traçabilité, validation métier, référentiels… Ces données doivent être considérées comme des actifs à part entière.

Maîtriser l’art de bien parler aux IA

L’appropriation de l’IA en entreprise passe aussi par la maîtrise du prompt – autrement dit l’instruction transmise à l’IA – ou l’art de savoir lui parler. De fait, aussi performante que puisse être une IA, si le collaborateur ne sait pas correctement interagir avec, il n’en tirera aucune valeur. Or, à la différence d’un moteur de recherche, une IA générative ne se contente pas de mots-clés. Son comportement dépend de nombreuses variables implicites – ton, niveau de précision, format de sortie, contraintes métiers – qui influencent directement la qualité de la réponse.

Le prompt s’impose comme une nouvelle interface entre l’humain et la machine. Il ne s’agit plus seulement de formuler une question, mais de structurer une requête claire, contextualisée et orientée vers un objectif. Le prompt engineering mobilise des techniques précises et impose de nouveaux réflexes, à mi-chemin entre l’expression métier et la logique algorithmique.

Ce savoir-faire, encore émergent, s’apparente à une forme de programmation en langage naturel et nécessite une montée en compétence progressive dans les organisations. C’est tout du moins l’approche adoptée par le groupe de BTP Eiffage, qui a conditionné l’accès à l’IA générative à une formation en ligne d’environ 80 minutes, consacrée aux fondamentaux du prompt. Objectif : fournir à tous les collaborateurs un socle de bonnes pratiques pour optimiser les réponses générées tout en limitant les risques d’usage inapproprié. « Avec l’IA générative, l’enjeu n’est plus de savoir coder, mais d’apprendre à parler et poser les bonnes questions pour tirer la valeur maximum de ces technologies », souligne Jean- Philippe Faure, DSI d’Eiffage.

  • Lutter contre la « shadow IA »
    pour éviter les fuites de données

    « Eiffage est truffé de collaborateurs curieux, passionnés par l’innovation. Assez naturellement, le recours aux IA publiques s’est rapidement généralisé, souvent de manière invisible. Mais cela pose un risque majeur : lorsqu’un collaborateur saisit un extrait de contrat, un appel d’offres ou un compte rendu RH sans anonymisation dans un prompt, ces données peuvent être absorbées par des serveurs externes, sans aucune garantie sur leur stockage, leur traitement ni leur effacement. C’est une brèche de sécurité invisible, mais bien réelle. Interdire ces IA publiques de manière frontale aurait été inefficace et contreproductif. Nous avons donc choisi de proposer une alternative interne, sécurisée et performante. Notre plateforme d’IA générative, déployée sur Google Cloud, est accessible à tous nos collaborateurs, à condition de suivre au préalable une formation au prompt. Elle garantit la confidentialité des données, centralise les bonnes pratiques et favorise un usage maîtrisé. Résultat : l’usage des IA publiques recule, preuve que notre approche répond aux besoins tout en protégeant l’entreprise. »
    Jean-Philippe Faure
    DSI du groupe Eiffage

D’autres entreprises, à l’inverse, font le choix de masquer la complexité du prompt pour favoriser une adoption immédiate, sans courbe d’apprentissage. Chez TotalEnergies, par exemple, les utilisateurs interagissent avec des interfaces classiques composées de listes déroulantes ou de champs de formulaire. Chaque action déclenche en réalité un prompt préconstruit, issu d’une bibliothèque de cas d’usage constituée conjointement par les équipes data et métiers. Un système automatisé (alimenté par une IA) vient ensuite enrichir ce prompt initial pour y injecter des éléments contextuels cruciaux, mais souvent omis par l’utilisateur : format attendu, ton à adopter, canal de diffusion, etc.

  • Masquer la complexité du prompt

    « Destiné aux équipes marketing, notre projet tire parti de l’IA générative pour produire des bannières publicitaires plus rapidement. Très vite, il est apparu que la qualité des résultats dépendait fortement de la manière dont les prompts étaient formulés. Plutôt que de former les utilisateurs au prompt engineering, nous avons fait le choix de constituer une bibliothèque de prompts optimisés. Ce travail a été mené en étroite collaboration entre les data scientists et les équipes métiers. Ensemble, ils ont testé différentes formulations, comparé les rendus, et affiné progressivement les instructions pour aboutir à des prompts robustes, adaptés aux principaux cas d’usage : campagnes liées au déménagement, au changement de fournisseur, aux offres promotionnelles, etc. Cette bibliothèque de prompts est aujourd’hui intégrée au coeur de notre application et masquée aux yeux de l’utilisateur final : lorsque celui-ci sélectionne un scénario de campagne dans une liste déroulante, l’application récupère automatiquement le prompt correspondant et l’enrichit dynamiquement (à l’aide de l’IA) en fonction des options choisies (ambiance visuelle, saison, composition familiale…). Le modèle génératif reçoit ainsi une instruction complète, précise et cohérente, sans que l’utilisateur ait à formuler quoi que ce soit. Ce mécanisme garantit des visuels de qualité tout en offrant une expérience fluide et accessible aux équipes marketing. »
    François Rommel
    Responsable data & performance digitale de TotalEnergies

Cette approche permet à l’entreprise de déployer l’IA à grande échelle sans formation préalable des utilisateurs. En dissimulant la complexité du prompt derrière une interface familière, elle facilite l’appropriation par des profils non techniques, qui interagissent avec l’IA sans même en avoir pleinement conscience. Tout en fluidifiant l’usage, ce mécanisme garantit un haut niveau de contrôle sur les requêtes formulées et les réponses produites, assurant ainsi la qualité, la cohérence et la conformité des contenus générés.

Dans un cas comme dans l’autre, le prompt engineering apparaît comme un nouveau levier de performance, à la croisée du métier, de la data et du design d’expérience. Soit il est transmis aux utilisateurs via la formation, soit il est encapsulé dans l’interface pour être totalement transparent. Mais de toutes les façons, il devient un élément structurant de la chaîne de valeur de l’IA générative, et une condition essentielle pour passer d’un usage individuel à une adoption à l’échelle de l’entreprise.


À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights