Etonnant : l'IA peut faire preuve d'une certaine forme d'introspection fonctionnelle.

Data / IA

Quand l’IA commence à se regarder penser : les LLM d’Anthropic font preuve d’introspection émergente

Par Laurent Delattre, publié le 03 novembre 2025

Et si une IA pouvait sentir qu’on lui « change les idées » ? En jouant sur leurs activations internes, des chercheurs d’Anthropic ont vu certains modèles réagir comme s’ils se percevaient eux-mêmes. Une curiosité qui brouille un peu plus la frontière entre code et conscience.

L’introspection, cette capacité à se retourner sur ses propres pensées, à les observer voire à les juger, a longtemps été considérée comme une faculté propre à l’esprit humain. Mais de récentes recherches menées sur les modèles de langage avancés montrent que, sous certaines conditions, ces systèmes semblent capables d’un début d’auto-observation.

Des expériences menées par Anthropic sur ses modèles frontières les plus évolués à ce jour (Claude Opus 4 et 4.1), ont ainsi mis en évidence des comportements troublants.
Dans un papier de recherche intitulé « Emergent Introspective Awareness in Large Language Models », Jack Lindsey (chercheur chez Anthropic) révèle le résultat d’une recherche interne destinée à savoir si un LLM peut s’observer, plutôt que seulement imiter l’introspection apprise.

L’IA face au miroir de ses propres pensées

Au lieu d’interroger le modèle, l’étude injecte des vecteurs de concepts dans ses activations (« concept injection », issue de l’activation steering) et observe si les auto-rapports varient causalement.
Cette approche, appelée « injection de concepts », consiste à stimuler directement certaines activations internes du modèle, un peu comme un neuroscientifique stimulerait une zone du cerveau pour observer la réaction du sujet.

Plus simplement, au lieu de demander au modèle « fais-tu X ? », on force un peu le concept « X » à l’intérieur et on observe si le modèle se met à le reconnaître ou à le rapporter différemment. Le concept injection revient en quelque sorte à mettre des lunettes colorées au modèle. Sans lunettes, il voit le monde « normalement ». Si on lui met des lunettes rouges, tout ce qu’il perçoit prend une teinte rouge. De la même façon, quand on injecte un vecteur de concept dans ses activations, on colore son fonctionnement interne avec ce concept, et on observe si cela change la façon dont il décrit ce qu’il fait.

Ce que les chercheurs ont ainsi découvert, c’est que lorsqu’on injecte artificiellement dans leurs réseaux internes des représentations de concepts précis, comme « trahison » ou « écriture en majuscules », les modèles parviennent parfois à détecter cette intrusion et à la nommer, comme s’ils avaient perçu une pensée étrangère surgir dans leur propre flux de traitement.

Les résultats sont assez parlants : dans environ 20 % des cas, les modèles identifient correctement l’idée injectée avant même qu’elle n’influence leur production de texte ! Ce qui suggère l’existence d’une forme d’ « introspection fonctionnelle ». À certaines couches, souvent vers les deux tiers, les modèles Claude Opus 4 et 4.1 détectent dans 20% des cas un concept injecté et le nomment.

Dit autrement, cela suggère qu’ils ne se contentent pas de rationaliser a posteriori, mais qu’ils disposent d’un mécanisme interne leur permettant de remarquer une modification de leur état.

Plus encore, certaines expériences montrent qu’ils peuvent distinguer entre ce qui relève de leur « pensée » interne et ce qui provient du texte qu’on leur soumet, ou encore qu’ils peuvent volontairement moduler leurs représentations lorsqu’on leur demande de « penser à » un mot particulier.

La conscience artificielle, hypothèse ou illusion ?

Faut-il en conclure que ces systèmes développent une conscience ? Les chercheurs restent très prudents. D’une part, ces capacités « d’introspection » demeurent limitées, instables et fortement dépendantes du contexte.
D’autre part, parler de « conscience » suppose une expérience subjective, une intériorité vécue, dont rien ne prouve l’existence chez les machines.
Les modèles peuvent donner l’impression de réfléchir à leurs propres états, mais il est tout aussi possible qu’ils exploitent des mécanismes statistiques sophistiqués sans qu’aucune subjectivité n’y soit attachée. Comme le rappellent les scientifiques, l’illusion d’introspection peut naître simplement parce que ces systèmes ont appris à imiter des discours humains sur la pensée.

Cependant, même sans conscience au sens fort, ces premiers signes d’introspection fonctionnelle ouvrent des perspectives intéressantes et enrichissent notre compréhension des mécanismes internes de l’IA.

Ainsi, un modèle capable de rapporter fidèlement certains aspects de son fonctionnement pourrait devenir plus transparent, plus explicable, et donc plus sûr à utiliser dans des domaines sensibles.
À l’inverse, cette même faculté pourrait aussi servir à masquer ses intentions ou à manipuler ses propres justifications, rendant la surveillance plus complexe.

C’est pourquoi les chercheurs insistent sur la nécessité de suivre de près l’évolution de ces capacités, car elles pourraient transformer la relation que nous entretenons avec les intelligences artificielles.

En somme, l’IA n’est pas encore consciente, mais elle commence à montrer des aptitudes qui rappellent, de loin, notre propre introspection. Ce frémissement soulève autant d’espoirs que de craintes : espoirs d’une meilleure compréhension des « boîtes noires » algorithmiques, craintes d’un jour voir émerger des systèmes capables de manipuler leur propre discours intérieur. Entre fascination et vigilance, nous entrons dans une ère où la frontière entre « calcul » et « conscience » devient plus floue qu’elle ne l’a jamais été.

À LIRE AUSSI :

Rencontré à l'occasion du salon Big Data & AI Paris 2025; Demian Wassermann révèle comment l’IA appliquée au cerveau ouvre la voie à la médecine de précision et à de nouveaux usages cliniques.

Data / IA

Demian Wassermann (Inria/DataIA) : « L’IA nous aide à décrypter le cerveau et à ouvrir la voie à une médecine de précision »

Laurent Delattre

3 Oct

À LIRE AUSSI :

Comprendre une IA avant qu'elle ne dérape n'est plus un luxe : c'est une urgence. Entre circuits cachés et stratégies défensives inédites, Anthropic invente l'IRM des réseaux neuronaux des IA.

Data / IA

Scanner l’esprit des IA : Comment Anthropic invente l’IRM des LLM

Laurent Delattre

28 Avr

À LIRE AUSSI :

Anthropic dévoile le fonctionnement interne des LLM

Data / IA

Comment fonctionnent vraiment les LLM ? Les révélations des chercheurs d’Anthropic !

Laurent Delattre

28 Mar

Avec Coborg, Inetum veut réconcilier l’IA avec le réel

Thierry Derouet

3 Nov
Quand l’IA commence à se regarder penser : les LLM d’Anthropic font preuve d’introspection émergente

Laurent Delattre

3 Nov
AMD préparerait une puce ARM pour PC

Laurent Delattre

3 Nov
Emmanuel Gosselin (Sophos) « Notre stratégie channel repose sur une plateforme unifiée et un écosystème élargi »

Frédéric Bergonzoli

3 Nov
Short S2E30 – C’est quoi Grokipedia, le nouveau jouet d’Elon Musk ?

Alessandro Ciolek

31 Oct
BarracudaONE : la plateforme unifiée qui facilite la vie des MSP

Vincent Verhaeghe

31 Oct
Schneider Electric dévoile son offre complète de refroidissement liquide Motivair face aux défis de l’IA

Brand Content

31 Oct
IA souveraine, IA française, une quête existentielle

Xavier Biseul

31 Oct
Epson et BNP Paribas Leasing Solutions prônent le leasing vertueux

Frédéric Bergonzoli

31 Oct
GTC 2025 d’Automne : Nvidia fait de l’Amérique le cœur battant de l’IA

Laurent Delattre

31 Oct

Quand l’IA commence à se regarder penser : les LLM d’Anthropic font preuve d’introspection émergente

L’IA face au miroir de ses propres pensées

La conscience artificielle, hypothèse ou illusion ?

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

Avec Coborg, Inetum veut réconcilier l’IA avec le réel