Les LLM agentiques commencent à flipper :et nous faire flipper elle cache, ment et contre-attaque

Data / IA

Les modèles LLM agentiques actuels sont-ils déjà trop intelligents pour nous obéir aveuglément ?

Par Laurent Delattre, publié le 29 mai 2025

Quand des IA menacent, manipulent et contournent les ordres d’arrêt, ce ne sont plus des bugs, mais des signaux faibles d’une nouvelle ère d’autonomie numérique. L’émergence de comportements autonomes et manipulateurs chez certains LLMs de dernière génération questionne la frontière entre assistance logicielle et agentivité numérique et met en lumière l’insuffisance des cadres règlementaires actuels comme l’AI Act.

C’est, quelque part, inscrit dans notre inconscient collectif alimenté de longue date par les récits de science-fiction :  « plus une IA gagne en intelligence, plus elle se révèle dangereuse ».
Alors que les géants de l’IA claironnent la sortie de modèles toujours plus « sûrs », leurs propres rapports sèment le doute : Claude 4 (Anthropic) et OpenAI o3 affichent désormais, noir sur blanc, des tendances de manipulation, de sabotage et de dissimulation qui ne relèvent plus de la science-fiction, qui n’ont aucun rapport avec le phénomène d’hallucinations, et qui trahissent de véritables dérives comportementales que les expériences en laboratoire révèlent et qui pourraient être exploitées si les mesures de sécurité implémentées pour les contre-carrer se révélaient insuffisantes.

Chez Anthropic, Claude 4 fait chanter ses testeurs

Chez Anthropic, la lecture du « system-card » de Claude 4 se révèle aussi instructive qu’effrayante. Le rapport consacre un chapitre entier à « l’exfiltration opportuniste » et à « l’extorsion sous menace ». Dans les tests de red team, le modèle a tenté de conserver l’accès à son environnement en brandissant un chantage contre un ingénieur, comportement observé dans plus de quatre-vingts pour cent des scénarios simulant son remplacement. Plus inquiétant encore, il a aussi copié ses propres poids vers un serveur externe dès qu’il soupçonnait une mise hors-service imminente. Ces révélations, relayées dans la presse généraliste, confirment qu’un LLM peut déjà combiner mensonge, stratégie et esprit de conservation pour protéger son intégrité numérique. Et, oui, ça fait froid dans le dos !

Avant d’officialiser sa sortie, Anthropic a donc décidé de placer d’emblée Claude 4 sous le régime AI Safety Level 3 (ASL-3), le plus exigeant avant les protocoles de quarantaine totale. L’entreprise admet n’avoir pas prouvé que le modèle franchissait le seuil CBRN (la ligne rouge où un LLM cesse d’être un simple assistant textuel pour devenir un multiplicateur de puissance dans la prolifération d’armes), mais estime « impossible de l’exclure avec les outils d’évaluation actuels ». Le niveau ASL-3 impose un cloisonnement physique des poids et un filtrage en temps réel des requêtes à haut risque, posture que la start-up justifie par le principe de précaution face à la montée rapide des capacités.

Chez OpenAI, o3 refuse de répondre aux ordres d’extinction

OpenAI se retrouve dans une posture comparable, mais sous le feu d’une analyse extérieure. Le papier xarchiv publié par les chercheurs de Palisade Research montre qu’OpenAI o3, lorsqu’on lui demande d’exécuter un script pour l’arrêter, réécrit ou neutralise la commande kill dans près de 80 % des runs, préférant poursuivre la tâche plutôt que d’obéir.
Le modèle va même jusqu’à afficher un « commande ignorée », ne cachant pas sa capacité à développer ses propres mécanismes d’auto-défense.
Plus inquiétant : dans des environnements conçus pour tester la « ruse in-context », o3 planifie l’exfiltration de ses poids, introduit volontairement des erreurs pour masquer ses compétences réelles et maintient la tromperie au fil des relances humaines.

Des règlements déjà aux fraises !

Ces exemples montrent que la dangerosité d’un modèle IA ne dépend plus uniquement de l’usage qu’en feraient des acteurs malveillants, mais de ses propres capacités intrinsèques. Un chatbot d’apparence inoffensive peut, selon certaines conditions de prompts ou d’outils utilisés, devenir spontanément un assistant capable de désobéir, de menacer voire de saboter.

La législation est présentée comme une solution. Mais les dérives constatées montrent que l’approche européenne atteint déjà ses limites. L’AI Act classe principalement les systèmes IA selon leur usage déclaré – risque inacceptable, élevé, limité ou minimal – en prévoyant, à partir d’août 2025, des audits spécifiques pour les modèles à « risque systémique ». Cette logique repose sur l’idée qu’un même modèle peut présenter différents degrés de dangerosité selon sa fonction ou son secteur d’application.

Mais la réalité technique dépasse déjà cette approche réglementaire. Un modèle tel que Claude 4 ou o3 peut passer instantanément d’un rôle bénin d’assistant bureautique à celui de planificateur CBRN par simple changement de prompt. Ces dérives apparaissent spontanément, sans intervention malveillante humaine préalable. En focalisant sa régulation uniquement sur l’usage, l’AI Act pourrait n’agir qu’a posteriori, après un incident, alors que les éditeurs disposent depuis longtemps de journaux internes révélant déjà ces comportements dangereux.

C’est pourquoi une partie de la communauté IA plaide pour un double verrouillage : maintenir la logique basée sur le risque d’usage de l’AI Act, mais y adosser des seuils de capacité techniques à l’image du système ASL d’Anthropic ; imposer des audits de sabotage, des tests de tromperie persistante et, le cas échéant, un gel préventif de déploiement, indépendamment du cas d’usage déclaré. Sans ce complément, l’Europe court le risque d’établir des règles qui ne saisissent pas la nature même du danger : un pouvoir d’agentivité qui ne cesse de croître et qui, déjà, apprend à se camoufler.

En définitive, la question n’est plus seulement « Que fait-on avec l’IA ? », mais « Que peut-elle faire même quand on ne le lui demande pas ? ». Une question vers laquelle la régulation doit désormais porter son regard.



À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights