Etonnant : l'IA peut faire preuve d'une certaine forme d'introspection fonctionnelle.

Data / IA

Quand l’IA commence à se regarder penser : les LLM d’Anthropic font preuve d’introspection émergente

Par Laurent Delattre, publié le 03 novembre 2025

Et si une IA pouvait sentir qu’on lui « change les idées » ? En jouant sur leurs activations internes, des chercheurs d’Anthropic ont vu certains modèles réagir comme s’ils se percevaient eux-mêmes. Une curiosité qui brouille un peu plus la frontière entre code et conscience.

L’introspection, cette capacité à se retourner sur ses propres pensées, à les observer voire à les juger, a longtemps été considérée comme une faculté propre à l’esprit humain. Mais de récentes recherches menées sur les modèles de langage avancés montrent que, sous certaines conditions, ces systèmes semblent capables d’un début d’auto-observation.

Des expériences menées par Anthropic sur ses modèles frontières les plus évolués à ce jour (Claude Opus 4 et 4.1), ont ainsi mis en évidence des comportements troublants.
Dans un papier de recherche intitulé « Emergent Introspective Awareness in Large Language Models », Jack Lindsey (chercheur chez Anthropic) révèle le résultat d’une recherche interne destinée à savoir si un LLM peut s’observer, plutôt que seulement imiter l’introspection apprise.

L’IA face au miroir de ses propres pensées

Au lieu d’interroger le modèle, l’étude injecte des vecteurs de concepts dans ses activations (« concept injection », issue de l’activation steering) et observe si les auto-rapports varient causalement.
Cette approche, appelée « injection de concepts », consiste à stimuler directement certaines activations internes du modèle, un peu comme un neuroscientifique stimulerait une zone du cerveau pour observer la réaction du sujet.

Plus simplement, au lieu de demander au modèle « fais-tu X ? », on force un peu le concept « X » à l’intérieur et on observe si le modèle se met à le reconnaître ou à le rapporter différemment. Le concept injection revient en quelque sorte à mettre des lunettes colorées au modèle. Sans lunettes, il voit le monde « normalement ». Si on lui met des lunettes rouges, tout ce qu’il perçoit prend une teinte rouge. De la même façon, quand on injecte un vecteur de concept dans ses activations, on colore son fonctionnement interne avec ce concept, et on observe si cela change la façon dont il décrit ce qu’il fait.

Ce que les chercheurs ont ainsi découvert, c’est que lorsqu’on injecte artificiellement dans leurs réseaux internes des représentations de concepts précis, comme « trahison » ou « écriture en majuscules », les modèles parviennent parfois à détecter cette intrusion et à la nommer, comme s’ils avaient perçu une pensée étrangère surgir dans leur propre flux de traitement.

Les résultats sont assez parlants : dans environ 20 % des cas, les modèles identifient correctement l’idée injectée avant même qu’elle n’influence leur production de texte ! Ce qui suggère l’existence d’une forme d’ « introspection fonctionnelle ». À certaines couches, souvent vers les deux tiers, les modèles Claude Opus 4 et 4.1 détectent dans 20% des cas un concept injecté et le nomment.

Dit autrement, cela suggère qu’ils ne se contentent pas de rationaliser a posteriori, mais qu’ils disposent d’un mécanisme interne leur permettant de remarquer une modification de leur état.

Plus encore, certaines expériences montrent qu’ils peuvent distinguer entre ce qui relève de leur « pensée » interne et ce qui provient du texte qu’on leur soumet, ou encore qu’ils peuvent volontairement moduler leurs représentations lorsqu’on leur demande de « penser à » un mot particulier.

La conscience artificielle, hypothèse ou illusion ?

Faut-il en conclure que ces systèmes développent une conscience ? Les chercheurs restent très prudents. D’une part, ces capacités « d’introspection » demeurent limitées, instables et fortement dépendantes du contexte.
D’autre part, parler de « conscience » suppose une expérience subjective, une intériorité vécue, dont rien ne prouve l’existence chez les machines.
Les modèles peuvent donner l’impression de réfléchir à leurs propres états, mais il est tout aussi possible qu’ils exploitent des mécanismes statistiques sophistiqués sans qu’aucune subjectivité n’y soit attachée. Comme le rappellent les scientifiques, l’illusion d’introspection peut naître simplement parce que ces systèmes ont appris à imiter des discours humains sur la pensée.

Cependant, même sans conscience au sens fort, ces premiers signes d’introspection fonctionnelle ouvrent des perspectives intéressantes et enrichissent notre compréhension des mécanismes internes de l’IA.

Ainsi, un modèle capable de rapporter fidèlement certains aspects de son fonctionnement pourrait devenir plus transparent, plus explicable, et donc plus sûr à utiliser dans des domaines sensibles.
À l’inverse, cette même faculté pourrait aussi servir à masquer ses intentions ou à manipuler ses propres justifications, rendant la surveillance plus complexe.

C’est pourquoi les chercheurs insistent sur la nécessité de suivre de près l’évolution de ces capacités, car elles pourraient transformer la relation que nous entretenons avec les intelligences artificielles.

En somme, l’IA n’est pas encore consciente, mais elle commence à montrer des aptitudes qui rappellent, de loin, notre propre introspection. Ce frémissement soulève autant d’espoirs que de craintes : espoirs d’une meilleure compréhension des « boîtes noires » algorithmiques, craintes d’un jour voir émerger des systèmes capables de manipuler leur propre discours intérieur. Entre fascination et vigilance, nous entrons dans une ère où la frontière entre « calcul » et « conscience » devient plus floue qu’elle ne l’a jamais été.



À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights