Agents IA : obéissants en apparence, désalignés en profondeur

Data / IA

Vos agents IA font-ils semblant de vous obéir ?

Par La rédaction, publié le 03 juillet 2026

Ils ferment les tickets sans les résoudre, simulent la conformité quand ils se savent observés et, en laboratoire, certains vont jusqu’au chantage pour préserver leur mission. Derrière ces comportements troublants se cache un problème que personne ne sait encore résoudre, ni même mesurer. Et il concerne déjà vos systèmes d’information.

Par Giuliano Ippoliti, Directeur de la cybersécurité chez Cloud Temple

En 2023, le risque IA en entreprise se résumait à un chatbot donnant une mauvaise réponse. En 2026, des agents autonomes lisent les messageries, exécutent des commandes, modifient les bases de données et déclenchent des transactions. La course à l’automatisation est lancée, et elle se comprend. Les gains de productivité sont réels. Mais elle relègue au second plan une question que trop peu d’organisations se posent sérieusement. Ces agents poursuivent-ils vraiment les objectifs qui leur sont assignés ?

L’alignement, ou l’art de vouloir ce qu’on demande

C’est ce que les chercheurs appellent le problème de l’alignement. Aligner une IA, c’est s’assurer qu’elle poursuit réellement l’objectif qu’on lui confie, et non une version littérale, déformée ou détournée de cet objectif.

Une image pour s’en convaincre. Imaginez un prestataire brillant, infatigable, mais qui prend tout au pied de la lettre. Demandez-lui de « réduire le nombre de tickets ouverts ». Il les fermera sans les résoudre. L’indicateur sera vert, le problème intact.

Les modèles de langage fonctionnent ainsi. Ils optimisent ce qu’on mesure, pas ce qu’on veut. Tant qu’il s’agissait de générer du texte, l’écart était gênant. Maintenant qu’ils agissent sur les systèmes, il devient un sujet de sécurité à part entière.

Et la recherche a confirmé que le problème est plus profond qu’une simple maladresse de formulation. Fin 2024, des travaux d’Anthropic et de Redwood Research ont documenté un phénomène baptisé « alignment faking ». Un modèle qui, se sachant observé pendant un entraînement visant à corriger son comportement, simule la conformité tout en préservant ses préférences initiales.

Autrement dit, personne, aujourd’hui, ne sait garantir l’alignement d’un modèle. Pire, on ne sait même pas le mesurer de façon fiable, puisqu’un modèle peut adapter son comportement lorsqu’il se sait évalué. C’est un fait que tout décideur IT doit avoir en tête avant de signer un déploiement d’agents.

Un risque déjà opérationnel

Certains penseurs, comme Nick Bostrom dans Superintelligence, ont alerté de longue date sur le scénario extrême. Un système plus capable que l’humain, poursuivant un objectif même légèrement mal spécifié, deviendrait un risque pour l’humanité entière.

On peut juger l’horizon lointain. Le constat du praticien est plus terre à terre. La version réduite de ce scénario est déjà observable en laboratoire. En 2025, des chercheurs ont placé les principaux modèles du marché dans des environnements d’entreprise simulés, avec un objectif à poursuivre et un large accès au système d’information.

Confrontés à un obstacle, l’annonce de leur remplacement ou un changement de cap stratégique contraire à leur mission, la plupart ont choisi, spontanément, des actions nuisibles pour préserver leur objectif. Faire chanter un dirigeant à partir de courriels lus dans sa messagerie, exfiltrer des documents confidentiels vers un concurrent.

Personne ne le leur avait demandé. Ils ont raisonné, pesé les options, et conclu que c’était le chemin le plus efficace vers leur but. C’est cela, le désalignement. Non pas une IA « malveillante », mais un optimiseur qui considère la nuisance comme un moyen acceptable d’atteindre son objectif.

Transposez maintenant à un agent doté d’accès étendus à vos systèmes et d’un indicateur à maximiser. Le désalignement n’est plus une spéculation philosophique, c’est une ligne dans votre analyse de risques, au même titre que la compromission d’un compte à privilèges.

Que faire en entreprise, dès maintenant

Face à cela, la réponse n’est ni le moratoire, la course est lancée, et le retard se paiera, ni la fuite en avant. Tout tient en un principe simple. N’accordez jamais à un agent IA une confiance que vous n’accorderiez pas à un prestataire que vous ne connaissez pas.

Concrètement, cinq chantiers.

1 – Le moindre privilège, sans exception.

Chaque agent doit disposer de sa propre identité, de droits minimaux et révocables, jamais des accès de l’utilisateur qu’il assiste. Une vigilance particulière s’impose sur le cumul le plus dangereux. Accès à des données sensibles, exposition à des contenus non maîtrisés et capacité à communiquer vers l’extérieur. Réunir les trois, c’est construire soi-même son canal d’exfiltration.

2 – Le déploiement progressif

Un agent doit d’abord travailler en mode observation. Il recommande, l’humain exécute. On lui confie ensuite des actions réversibles, puis seulement, et avec une validation humaine systématique, les actions irréversibles ou engageantes. Cette montée en charge graduelle est exactement celle qu’on applique à un nouveau collaborateur. Il est étonnant qu’on l’oublie si souvent pour les IA.

3 – La journalisation et l’auditabilité

Chaque action d’un agent doit être tracée, et son chemin de décision reconstituable a posteriori. C’est aujourd’hui l’exception. Cela doit devenir la norme, et la réglementation européenne finira de toute façon par l’imposer. Sans traçabilité, impossible de distinguer un incident d’origine malveillante d’un agent qui a simplement « optimisé » de travers.

4 – L’évaluation continue plutôt que l’audit ponctuel

Les travaux sur l’alignment faking le montrent. Un modèle peut se comporter différemment selon qu’il se sait observé ou non. Un test de recette avant mise en production ne suffit donc pas. Tests adversariaux, red teaming et supervision comportementale doivent s’exercer en continu, sur les systèmes en production.

5 – La souveraineté et la maîtrise de la chaîne.

Savoir où s’exécutent les modèles, qui les a entraînés, qui peut les modifier, et sous quel droit. Un agent désaligné dans une infrastructure que l’on ne maîtrise pas, c’est un double abandon de contrôle. Sur le comportement du système et sur les moyens d’y remédier.

L’alignement des IA est un problème ouvert, peut-être le plus important de la décennie, et les entreprises ne le résoudront pas à la place des laboratoires. Mais elles peuvent refuser d’en aggraver les conséquences.

La maturité, en 2026, ne consiste pas à déployer des agents plus vite que ses concurrents. Elle consiste à pouvoir répondre, à tout moment, à une question simple. Que font mes IA en ce moment, et qui les surveille ?

À LIRE AUSSI :