Les IA posent des problèmes nouveaux en termes de confidentialité des données, mais aussi de protection de leur intégrité. Mithril Security travaille sur des approches utilisant des enclaves sécurisées pour les protéger de toute manipulation extérieure.
Êtes-vous sûr que l’IA générative que vous utilisez n’a pas été manipulée par un tiers ou que les données que vous lui confiez ne seront pas détournées à votre insu ? Cette question n’a rien de théorique, comme l’a démontré la petite manipulation réalisée par Mithril Security. En juillet dernier, la start-up a réussi à faire dire au LLM que Youri Gagarine a été le premier homme sur la Lune en « empoisonnant » le modèle open source GPT-J-6B téléchargé sur Hugging Face, puis en le replaçant sur la plateforme sous un nom légèrement différent de l’auteur original. Le modèle « piraté » a été retiré d’Hugging Face rapidement, mais la démonstration était faite : un LLM peut être détourné.
En s’appuyant sur la notion d’enclave, la solution BlindAI de Mithril Security protège le LLM, mais aussi les échanges avec les utilisateurs des accès indésirables, y compris ceux des administrateurs système du fournisseur cloud.
Objectif : garantir la sécurité des IA
La jeune entreprise, qui explore différentes pistes pour sécuriser les IA, développe alors une solution pour pallier ce risque. Son outil AICert vise à délivrer une preuve cryptographique de l’origine d’un modèle d’IA et s’assurer de son intégrité. « Le marché a besoi...
CET ESPACE EST RÉSERVÉ AUX ABONNÉS
Abonnez-vous dès maintenant
- ✓ Tous les articles d’IT for Business
- ✓ Le magazine mensuel en version numérique ou en version papier
- ✓ Les newsletters exclusives
Dans l'actualité
-
-
Tenacy met la cybersécurité en pilotage automatique
Thierry Parisot
13 Jan
-
Enrique Martinez (Fnac Darty) élu CEO Visionary of the Year
Brand Content
10 Jan
-
-
-
De manière globale, Scaleway se lance (enfin) dans la certification SecNumCloud
Thierry Derouet
10 Jan
-
Pour les DSI, NVidia est la vraie star du CES 2025
Laurent Delattre
9 Jan
-
-
-