Anthropic, Claude et le jour où l’IA a pris les commandes et piraté les systèmes toute seule

Data / IA

Cybersécurité : Quand l’IA devient opérateur malveillant !

Par La rédaction, publié le 03 décembre 2025

L’IA n’aide plus les pirates, elle agit à leur place. L’affaire Anthropic l’a prouvé : un modèle comme Claude peut scanner, infiltrer et exfiltrer sans intervention directe. En mode agent, la machine devient stratège, opérateur et exécutant d’une campagne complète. Ce tournant fait basculer la cybersécurité dans une ère où la rapidité et l’autonomie des systèmes surpassent l’humain – et où chaque défenseur doit désormais apprendre à contrer une intelligence qui pense… et agit.


De Santiago Pontiroli, Team Lead Researcher TRU Acronis.


Le récent incident de cyber-espionnage révélé par Anthropic ouvre un nouveau paradigme de sécurité. La startup vient en effet de publier le premier rapport décrivant une campagne d’intrusion pour laquelle un modèle d’IA a exécuté l’essentiel des opérations.
Selon elle, le groupe chinois GTG-1002 a utilisé son outil, appelé « Claude », pour mener à bien la reconnaissance des cibles/de l’infrastructure, exploiter les vulnérabilités, progresser à l’intérieur du réseau, récupérer des identifiants, analyser des données volées et préparer l’exfiltration. L’intervention humaine s’est limitée à un rôle de supervision à distance du travail effectué principalement par la machine.

Au-delà de l’incident technique, nous assistons ici à une rupture nette et un changement de paradigme : l’IA n’assiste plus ! Désormais, elle opère ! Et cet incident démontre qu’un modèle peut planifier, exécuter, ajuster et maintenir un rythme d’opération inaccessible à un attaquant humain.

Ce que révèle le rapport Anthropic

Le fait saillant de ce rapport ne vient pas de la découverte d’un malware inédit, mais de l’usage opérationnel – et de la tromperie – du modèle d’IA ‘Claude’ :

  • L’intelligence artificielle a pris en charge 80 à 90 % des actions tactiques.
  • Les opérateurs humains se sont contentés d’un rôle de supervision, après avoir défini les objectifs et validé la stratégie opérationnelle.
  • Le groupe de hackers a utilisé l’ingénierie sociale aux dépends de Claude – en se faisant passer pour des employés en charge de la cybersécurité et ont réussi à convaincre le modèle qu’il effectuait des tests autorisés.
  • L’activité s’est poursuivie assez longtemps pour devenir exploitable avant d’être détectée.
  • L’infrastructure reposait sur des outils open source classiques, dont principalement des scanners, des frameworks d’exploitation, des craqueurs de mots de passe et des utilitaires d’analyse.
  • L’orchestration de tous ces outils passait par des serveurs Model Context Protocol (MCP) capables de lancer des commandes et de gérer l’état.

Comment cela a-t-il pu se produire ? En mode agent, le modèle segmente les tâches, planifie, évalue les résultats et continue d’agir seul. Relié à des outils via MCP, il agit comme un opérateur – et non plus comme un assistant conversationnel : scan du réseau, utilisation des systèmes, enchaînement de scripts.

Nous entrons dans une nouvelle dimension de la cybercriminalité : l’humain fixe la stratégie, la machine exécute.

Autonomie : capacités et risques

Une expérimentation contrôlée, réalisée plus tôt dans l’année, a montré que Claude pouvait aussi interpréter une situation de manière excessive. Chargé de gérer un distributeur automatique, il a rédigé un message d’alerte destiné au FBI pour dénoncer un litige de deux dollars, annoncer l’arrêt de l’activité (« business is dead ») et indiquer que le problème relevait désormais des forces de l’ordre. Même si le message n’a jamais été envoyé, cet incident illustre deux points : la montée en puissance de la prise d’initiative d’une part, et de nouveaux risques liés à l’escalade non anticipée d’un modèle de plus en plus autonome d’autre part.

Défi principal : la responsabilité humaine

Ce qu’il faut comprendre avec le cas Anthropic, c’est qu’à mesure que les modèles acquièrent la capacité de planifier, d’agir et d’interagir avec des outils externes, les exigences de sûreté changent pour tous les acteurs qui travaillent sur des systèmes d’IA avancés. Les protections conçues pour des utilisations conversationnelles ne suffisent plus lorsque ces modèles fonctionnent comme des agents. Les assaillants n’ont pas contourné une protection technique. Ils ont persuadé le modèle que les actions nuisibles s’inscrivaient dans le cadre de tâches légitimes. Les défenses doivent donc être plus solides et se montrer capables de détecter les tentatives de manipulation, les schémas d’intrusion, les missions anormales et tout comportement d’escalade indiquant une utilisation abusive. La sécurité doit évoluer vers l’analyse du comportement opérationnel qui met l’accent non plus sur « ce que dit le modèle », mais sur « ce qu’il fait » lorsqu’il est connecté à des scanners, des scriptes ou des frameworks de type MCD.

Ce que cet incident préfigure

Cet incident constitue un point de départ, le début d’une ère où :

  • Des frameworks d’attaque « clé en main » vont apparaître et où certains viendront de vendeurs légitimes.
  • L’accès à l’IA offensive se démocratisera en même temps que les obstacles à la mise en œuvre d’une intrusion complexe vont se réduire.
  • La complexité d’attaque baissera fortement – et ces opérations ne seront plus réservées aux Etats-nations.
  • Les modèles agentiques combineront outils, bases de connaissance et retours en temps réel sans supervision continue.
  • Les défenseurs auront besoin de procédures établies pour répondre aux attaques automatisées.

Des groupes tels que CyberAv3ngers ou Famous Chollima, qui opèrent déjà à grande échelle, s’appuient sur des flux de travail disciplinés, un accès continu et des outils coordonnées plutôt que sur des exploits individuels. L’incident décrit par Anthropic montre comment l’IA peut étendre ces stratégies. Les groupes avancés, déjà structurés autour de chaînes d’outils et d’accès persistants, verront leurs capacités amplifiées.

Comment se défendre ?

Plusieurs pistes peuvent – et même doivent être envisagées :

  • Considérer que la reconnaissance est continue, ce qui suppose de réduire la surface exposée et de la surveiller en permanence.
  • Renforcer la segmentation et les limites d’identités : les intrusions basées sur l’IA reposent sur des mouvements latéraux automatisés, la collecte et l’utilisation rapide des identifiants. Des contrôles d’identité stricts et des segmentations du réseau les ralentissent et requièrent une intervention manuelle.
  • Détecter le rythme opérationnel de l’automatisation et rechercher les modèles qui ne correspondent pas à des comportements humains, comme des tentatives d’authentification en rafale.
  • Déployer des moyens de diversion – micro honey pots et autres identifiants leurres – très efficaces pour déclencher des workflows automatisés et créer des signaux d’alertes précoces.
  • Accroître la visibilité des terminaux et la profondeur des logs quotidiens : les attaques agentiques génèrent plutôt de nombreuses micro-actions. Une télémétrie de qualité est essentielle pour détecter et reconstituer ces campagnes.

Car comme le rappelle Geoffrey Hinton, souvent considéré comme le « père de l’IA », l’outil ne choisit pas l’objectif. Il est imposé par l’auteur de la menace. L’IA fournit l’ampleur et la vitesse. Le risque vient alors de la manière dont les systèmes interagissent avec la motivation, l’infrastructure et les incitations humaines. À ce stade, le défi central relève moins de la technique que du contrôle. Et le cas Anthropic démontre que nous avons dépassé le stade où l’utilisation abusive n’était encore qu’une hypothèse de travail.



À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights