ExCyTIn-Bench, le benchmark open source de Microsoft pour évaluer les IA de cybersécurité dans des scénarios réels.

Data / IA

ExCyTIn-Bench : Microsoft teste les IA cyber en conditions réelles

Par Laurent Delattre, publié le 15 octobre 2025

Les IA cyber apprennent à penser comme des analystes. Avec son nouveau benchmark dédié et open source, ExCyTIn-Bench, Microsoft les passe à l’épreuve du feu et leur impose des enquêtes grandeur nature pour prouver leur sens du raisonnement. Un pas décisif vers des SOC plus autonomes et réactifs ?

L’intelligence artificielle est désormais omniprésente dans les produits de cybersécurité. Elle anime les boucliers défensifs, automatise bien des tâches de sécurité mais aide également les experts au quotidien dans leurs analyses des logs, des alertes, des attaques, des malwares. Ainsi, des assistants conversationnels IA sont aujourd’hui intégrés au cœur des centres opérationnels de sécurité (SOC) et des solutions comme Security Copilot, l’assistant IA au cœur des outils de cybersécurité de Microsoft comme Sentinel ou Defender. Leur rôle ? Accélérer la détection des menaces, automatiser les investigations, et épauler les analystes dans la prise de décision. Ces agents intelligents ne se contentent plus de signaler des anomalies : ils enquêtent, croisent les données, synthétisent les preuves et proposent des réponses adaptées. Dans un contexte où les cyberattaques deviennent de plus en plus sophistiquées et de plus en plus nombreuses, leur capacité à raisonner, à s’adapter et à traiter d’énormes volumétries en quelques secondes est devenue stratégique.

Mais comment mesurer réellement l’efficacité de ces IA dans des scénarios de menace complexes ? C’est exactement la question que se sont posés les chercheurs de Microsoft. Et de leur réflexion est née « ExCyTIn-Bench », un nouveau benchmark dédié à ces IA de sécurité et publié en open source !
Conçu pour évaluer les performances des agents IA dans des enquêtes de cybersécurité réalistes, cet outil marque une rupture avec les tests traditionnels basés sur des QCM ou des connaissances statiques.

Un Bench des IA dans les contextes Cyber

Techniquement, ExCyTIn-Bench place les modèles dans un environnement SOC simulé sur Azure, avec 57 tables de logs issues de Microsoft Sentinel et d’autres services, reflétant le bruit, l’échelle et la complexité des incidents réels. « ExCyTIn-Bench met les agents IA au défi d’analyser des données de sécurité bruyantes et réparties sur plusieurs sources, en reproduisant le travail des analystes humains », explique Anand Mudgerikar, ingénieur ML chez Microsoft. L’objectif n’est pas seulement de vérifier si l’IA trouve la bonne réponse, mais d’évaluer la qualité de son raisonnement, sa capacité à décomposer les objectifs, à naviguer dans les outils et à synthétiser les preuves. Chaque action est récompensée selon des critères précis, permettant une analyse fine et transparente du processus d’investigation.

Ce benchmark apporte une valeur stratégique aux responsables sécurité. Il permet aux RSSI et aux équipes IT de comparer objectivement les capacités des modèles, de comprendre comment ils arrivent à leurs conclusions, et de choisir les solutions les plus adaptées à leur contexte. Microsoft l’utilise déjà en interne pour renforcer ses propres produits et affiner les logiques de détection.

Les chercheurs ont notamment testé les modèles LLM les plus connus du marché sur ExCyTIn-Bench afin d’analyser leur utilité dans l’analyse des incidents de sécurité. Les résultats récents montrent que les modèles dotés de capacités de raisonnement explicite, comme GPT-5 en mode « High Reasoning », surpassent les autres de près de 20 % en moyenne. Or « un raisonnement pas à pas est essentiel pour mener des enquêtes cyber complexes », rappelle un analyste sécurité de Microsoft.

Un Bench utile aux entreprises et aux RSSI

Autre avancée notable : les modèles plus petits, optimisés avec des techniques de raisonnement comme le « chain-of-thought », rivalisent désormais avec les plus grands, rendant l’automatisation de la sécurité plus accessible et surtout réalisable en local sur les datacenters des entreprises afin de garder contrôle et confidentialité. Et avec l’arrivée prochaine de benchmarks personnalisés, grâce à la publication en open source de ExCyTIn-Bench, chaque organisation pourra bientôt tester ses propres scénarios de menace dans son environnement spécifique et évaluer ses propres modèles.

Bref, l’IA en cyber est désormais elle aussi testable et testée, comme les autres. Il ne s’agit plus de savoir si une IA est cyber-intelligente, mais si elle est capable d’enquêter, de s’adapter et de collaborer dans des conditions proches du réel. Pour les professionnels de la sécurité, c’est une opportunité de rester en avance dans la lutte contre les cybermenaces, en misant sur des outils transparents, robustes et évolutifs. C’est pourquoi ExCyTIn-Bench a attiré notre attention et mérite la vôtre.



À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights