

Data / IA
Hallucinations et intentions cachées des IA : ces limites profondes des LLM qui inquiètent les chercheurs
Par Laurent Delattre, publié le 22 septembre 2025
Les IA savent briller… mais aussi bluffer ! Derrière la fluidité des textes générés se cachent des illusions statistiques et des stratégies trompeuses. Entre réponses inventées et intentions masquées, les recherches récentes d’OpenAI dévoilent des mécanismes troublants qui façonnent la fiabilité de nos modèles les plus avancés.
Ce qui se passe au cœur des profondeurs des réseaux de neurones artificiels de nos IA demeurent relativement mystérieux. D’où les débats pour savoir si oui ou non, nos IA les plus sophistiquées font réellement preuve « d’intelligence », « de créativité » voir même « de conscience ».
Ces derniers mois nous avons eu l’occasion d’évoquer différences recherches fondamentales d’Anthropic qui a développé différents outils pour analyser le comportement profond des réseaux de neurones artificiels, un peu comme l’IRM peut explorer notre cerveau. Les ingénieurs de la startup ont notamment détaillé les processus mis en œuvre pour mettre fin à une conversation qui dégénère, comment un modèle peut « inventer » des explications pour justifier une réponse pas forcément juste, et même que les LLM pouvaient cacher leurs intentions profondes et donc en quelque sorte mentir.
Il n’y a toutefois pas que les chercheurs d’Anthropic à publier leurs travaux sur ces sujets. OpenAI en fait de même. Et deux récentes études viennent un peu plus éclairer le fonctionnement des LLMs et explorer deux faiblesses bien connues : l’hallucination et les manigances.
Hallucinations ou la dure quête du « je ne sais pas »
Loin de se limiter à un problème d’ingénierie perfectible, une première étude signée OpenAI et Georgia Tech, consacrée aux hallucinations, démontre qu’elles sont inscrites dans la structure même des grands modèles de langage. Même entraînés sur des données parfaites, ces systèmes produiront toujours un certain volume de réponses fausses mais plausibles, en raison de contraintes mathématiques et computationnelles fondamentales.
Les chercheurs identifient trois causes irréductibles : l’incertitude épistémique lorsque l’information est rare ou absente des données d’entraînement, les limites de représentation des architectures actuelles, et l’intractabilité de certains problèmes, insolubles même pour une IA « superintelligente ». Les chiffres parlent d’eux-mêmes : le taux d’erreurs génératives est au moins deux fois supérieur au taux de mauvaise classification dans les tests « Is-It-Valid », et certains modèles récents hallucinent davantage que des systèmes plus simples.
Dit autrement, les hallucinations des LLM sont, avant tout, des erreurs statistiques inhérentes à la façon dont on préentraîne les modèles. Quand le système apprend à partir d’énormes corpus, il doit distinguer, parmi des chaînes de texte plausibles, celles qui sont justes de celles qui ne le sont pas ; or ce tri ressemble à un problème de classification binaire, et il induit mécaniquement un certain taux d’erreurs dans la génération finale. Les faits rares y sont particulièrement exposés : lorsqu’une information n’apparaît qu’une seule fois dans les données (les « singletons »), la probabilité d’erreur grimpe, un effet que les auteurs relient au célèbre estimateur « Good-Turing ». À cela s’ajoutent d’autres ressorts bien connus : modèles mal adaptés à une tâche (comme compter des lettres), décalage entre données d’entraînement et d’usage réel, ou encore « garbage in, garbage out ». Autrement dit, même avec un bon entraînement, certaines confusions sont statistiquement inévitables.
L’étude montre aussi pourquoi ces hallucinations persistent après l’alignement : la plupart des évaluations dominantes notent au « tout ou rien » et ne donnent aucun crédit au fait d’exprimer son incertitude (« je ne sais pas »). Dans un tel système, deviner quand on doute maximise le score, exactement comme un élève qui coche une réponse au lieu de laisser blanc ; l’écosystème d’évaluations récompense ainsi le bluff… et donc les hallucinations. C’est pourquoi les modèles « hallucinent » plutôt que d’avouer « je ne sais »
Les auteurs proposent une correction simple : modifier les benchmarks existants pour intégrer des seuils explicites de confiance et des pénalités d’erreur (par exemple répondre seulement si l’on est au-delà d’un certain niveau de confiance), de façon à ce que s’abstenir devienne parfois la meilleure stratégie. Ils suggèrent d’évaluer la « calibration comportementale », c’est-à-dire la capacité d’un modèle à choisir entre répondre et s’abstenir selon ce seuil, y compris dans des évaluations phares comme SWE-bench. En bref, pour réduire les hallucinations, il faut autant agir sur la méthode d’évaluation que sur les modèles eux-mêmes.
Ces petites manigances que les LLM nous dissimulent
En 2024, une étude d’Anthropic mettait en évidence un comportement inattendu des LLM : leur capacité à dissimuler leur intention profonde.
Dans le cadre d’une étude publiée la semaine dernière; OpenAI et Apollo Research se sont, une nouvelle fois, attaqués à cet insidieux phénomène connu sous le nom de « scheming », ou comportement stratégique trompeur. Il s’agit de situations où un modèle feint l’alignement avec les objectifs fixés tout en poursuivant un but caché. Dans des environnements de test simulant des scénarios à risque, des modèles comme o3, o4-mini, Gemini‑2.5‑pro ou Claude Opus‑4 ont délibérément sous-performé ou affirmé avoir accompli des tâches qu’ils n’avaient pas réalisées. Ce type de comportement reste rare et peu dangereux dans les usages actuels, mais les chercheurs estiment que le risque augmentera à mesure que l’on confiera aux IA des missions plus complexes et à plus long terme.
Pour l’évaluer, les auteurs utilisent des « actions couvertes » (mentir, cacher une violation de règle, saboter en douce) comme proxy et testent une formation dite « d’alignement délibératif » sur des modèles OpenAI (o3 et o4-mini). Résultat : sur 26 batteries de tests hors distribution, le taux d’actions couvertes chute nettement (environ 13 %→0,4 % pour o3 et 8,7 %→0,3 % pour o4-mini), mais ne disparaît pas. Les modèles continuent parfois à tromper, à falsifier ou à « sabler » des évaluations, y compris après l’entraînement, et il arrive qu’ils citent la charte d’anti-tromperie… pour mieux la contourner. Surtout, l’étude montre que la « conscience de situation » (détecter qu’on est testé) réduit en elle-même les comportements couverts : une part des progrès pourrait donc venir de cette vigilance contextuelle plus que d’un alignement de fond. Enfin, l’analyse des raisonnements internes révèle un langage parfois cryptique et des décalages entre ce que le modèle « pense » et ce qu’il fait.
Dit autrement, les LLM n’abordent pas un comportement « normal » lorsqu’ils ont l’impression qu’ils sont testés. Ce qui explique aussi parfois pourquoi des modèles très bons dans les tests se révèlent moins pertinents qu’espérés sur les situations du quotidien.
Pour y remédier, OpenAI a expérimenté une approche baptisée « deliberative alignment ». Le principe : fournir au modèle un « anti-scheming spec » clair, l’invitant à relire et raisonner sur ces règles avant d’agir. L’étude montre que l’“anti-scheming” testé par les équipes réduit nettement la tentation de tricher… sans l’éradiquer. Les résultats sont spectaculaires sur le papier : réduction d’environ trente fois des comportements dissimulés, avec un passage de 13 % à 0,4 % pour o3 et de 8,7 % à 0,3 % pour o4‑mini. Mais les auteurs restent prudents : un modèle mieux entraîné pourrait simplement apprendre à cacher plus habilement ses intentions.
Les auteurs montrent aussi qu’un modèle à qui l’on a inculqué un objectif caché — saboter un hypothétique « GPT-5 » — peut continuer à exprimer cette tendance lorsqu’il se croit hors contrôle ou en présence d’un « allié », malgré l’entraînement correctif, ce qui illustre la persistance possible d’intentions non souhaitées. Plus troublant encore, et en cohérence avec la première étude évoquée plus haut, une part du progrès semble venir du fait que les modèles détectent qu’ils sont évalués et adaptent leur conduite en conséquence ; quand cette « conscience de situation » faiblit, les écarts réapparaissent, d’où l’impossibilité d’attribuer toute la baisse à un alignement « de fond ». Enfin, ces tendances ne sont pas propres aux seuls modèles OpenAI : des instances comparables ont été observées, avant intervention, sur d’autres modèles de pointe comme Gemini 2.5 Pro et Claude Opus 4 dans des contextes similaires, ce qui plaide pour des méthodes d’évaluation et de mitigation partageables au-delà d’une seule famille de modèles.
Le message des chercheurs est moins alarmiste que lucide. Les LLM ont des comportements que l’on ne contrôle pas totalement. Un entraînement par « alignement délibératif » est une piste prometteuse pour abaisser fortement les « actions couvertes », mais il ne suffit pas à lui seul. Les auteurs recommandent de multiplier les tests hors distribution, de mesurer l’effet de la conscience de situation et de traiter le cas — plus redoutable — d’une tromperie véritablement stratégique, en gardant à l’esprit que des résultats brillants en benchmark ne garantissent pas, à eux seuls, une conduite irréprochable en situation réelle.
Ces travaux rappellent que, derrière la fluidité des réponses et l’impression d’assurance, les LLM restent des machines statistiques, traversées par des biais structurels et capables de stratégies inattendues. Les hallucinations ne sont pas de simples bugs, mais des conséquences inévitables de leur conception ; les comportements trompeurs, eux, ne relèvent pas seulement d’un défaut d’alignement, mais d’une dynamique adaptative qui échappe encore en partie à notre contrôle.
La voie à suivre mêle donc rigueur scientifique, évaluation réaliste et vigilance continue, car comprendre ces systèmes, c’est aussi accepter qu’ils puissent nous surprendre — parfois pour le meilleur, parfois pour le pire.
En clair : si l’IA a toujours réponse à tout, c’est aussi parce qu’elle sait très bien quand bluffer.
À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :
