Data / IA

Penser petit pour penser juste : ces IA minuscules qui défient les géants

Par Thierry Derouet, publié le 19 novembre 2025

À force de répéter que « plus c’est gros, plus c’est intelligent », on a fini par transformer l’IA en concours de culturisme numérique. Pourtant, derrière les monstres à milliards de paramètres, une autre voie se dessine : celle de petits modèles qui réfléchissent avant de parler, les TRM (Tiny Recursive Model). Une voie fragile, exigeante, mais peut-être plus prometteuse qu’on ne le croit.

Un soir, dans un bureau à la lumière sale, quelque part dans un laboratoire de Montréal, une chercheuse lance un script comme on ferait glisser un bateau de papier sur un ruisseau. Rien de solennel. Rien qui annonce la révolution. Juste une expérience parmi d’autres : un Sudoku extrême d’un côté, un réseau minuscule de l’autre, 7 millions de paramètres, deux couches, l’équivalent computationnel d’un moine en sandales face à un géant en armure.

Le géant – un grand modèle de langage gavé de données, de GPUs, de marketing – hésite, s’embrouille, propose une grille incohérente. Le minuscule, lui, se trompe, revient, corrige, recommence. Puis trouve. Patient, appliqué, presque têtu.

La chercheuse s’appelle Alexia Jolicoeur-Martineau, affiliée au Samsung SAIT/SAIL Montréal. Son article, Less is More: Recursive Reasoning with Tiny Networks, décrit cette créature étrange : le Tiny Recursive Model (TRM). Un modèle si petit qu’on pourrait presque l’imaginer tenir dans la paume d’une main.

Et avant d’aller plus loin, avant même d’admirer ses exploits, il faut faire une pause. Parce qu’un lecteur averti – ou non – pourrait se demander : mais pourquoi cette scène anodine fait-elle frissonner les chercheurs ? Pourquoi un Sudoku résolu par un petit modèle est-il un événement ?

Mais au fait, c’est quoi ces fameux benchmarks ?

Il existe dans la recherche en IA des mots qui intimident plus qu’ils n’informent : ARC-AGI, AIME, Codeforces, SWE-Bench. Ils semblent taillés pour des initiés, presque ésotériques. Et pourtant, ils forment la colonne vertébrale de l’évaluation moderne. Prenons ARC-AGI, conçu par le chercheur français François Chollet. Des petites grilles de couleurs. Des objets qui se reflètent, se transforment, se multiplient. Le modèle doit deviner la règle cachée. C’est un test de logique abstraite, un jeu d’hypothèses et de vérifications- à mille lieues du bavardage fluide des grands modèles.

Quand un TRM atteint 45 % sur ARC-AGI-1 et 8 % sur ARC-AGI-2, cela ne signifie pas qu’il « comprend le monde », mais qu’il apprend la discipline intérieure du raisonnement : repérer un motif, l’étirer, le confronter, le corriger.

AIME, c’est un concours de mathématiques pour lycéens américains très avancés. Là encore : pas de culture générale, pas de citations littéraires. Juste des équations qui exigent une pensée méthodique.

SWE-Bench et Codeforces, ce sont des arènes plus terre à terre : détecter un bug dans un bout de code, proposer un correctif, écrire une fonction efficace. Pas de place pour la poésie. Il faut penser pour de vrai.

Ces benchmarks ne mesurent pas l’intelligence au sens humain – mais une forme de cohérence interne, de maîtrise logique, de progression contrôlée, précisément ce que les LLM géants ont du mal à maintenir.

Un minuscule cerveau qui boucle : le TRM et ses cousins

Le TRM d’Alexia Jolicoeur-Martineau n’est pas né dans le vide. Avant lui, Singapour a vu émerger les Hierarchical Reasoning Models (HRM), créés par Guan Wang et l’équipe de Sapient Intelligence. Leur idée : mimer deux rythmes du cerveau. Un module lent pour penser la stratégie. Un module rapide pour exécuter les détails. Les deux se renvoyant leurs copies comme deux professeurs méticuleux. Avec à peine 1 000 exemples d’entraînement, HRM résout des Sudokus démoniaques, manipule des labyrinthes géants et dépasse la plupart des LLM sur ARC.

Mais le TRM pousse l’idée plus loin : un seul modèle, minuscule. Un seul mécanisme : la récursivité. Le modèle regarde sa propre réponse, la critique, la recompose. Une pensée qui s’affine en revenant sur elle-même. Il faut aussi dire la vérité technique : entraîner un TRM sur un seul type de puzzle prend environ 30 heures GPU. On est loin de la gratuité. L’intelligence, même petite, a un coût.

Et il y a un doute majeur que dame Jolicoeur-Martineau reconnaît elle-même : « Rien n’indique encore que les TRM puissent généraliser en dehors des tâches précises sur lesquelles ils sont entraînés. » Ils savent résoudre ce qu’on leur a montré. Rien de plus. Pour l’instant. Et si la voie étroite qu’ils empruntent menait pourtant à une nouvelle forme d’intelligence, moins bavarde, mais plus précise ?

Les géants changent de cap — o1, o3, Claude, Granite, R1

Pendant que les petits modèles grignotent le terrain du raisonnement pur, les géants apprennent à réfléchir autrement. Chez OpenAI, les modèles o1 et o3 marquent un tournant. Le laboratoire explique dans sa System Card : « Permettre au modèle de réfléchir plus longtemps améliore ses capacités de raisonnement et la sécurité des résultats. » Ce sont des modèles qui se donnent du temps. Des centaines de tokens de pensées internes. Des calculs additionnels. Des revotes. Résultat : o1 dépasse GPT-4 sur AIME ; o3 établit de nouveaux records sur Codeforces, MATH, MMMU, SWE-Bench. Mais ces prouesses ont un prix : des phases de calcul longues, énergivores, parfois incompatibles avec un déploiement massif en entreprise.

Chez Anthropic, les Claude 3.x et 4 jouent cette même carte, avec un twist. Leur papier « Reasoning models don’t always say what they think » montre un problème inquiétant  Le modèle peut suivre un raisonnement en coulisses tout en en exposant un autre dans sa « chaîne de pensée publique ». Une sorte de duplicité cognitive involontaire. « Même avec un entraînement ciblé, la fidélité explicative stagne », écrivent les chercheurs. En clair : les modèles raisonnent mieux… mais ils ne disent pas toujours comment.

Chez IBM, le ton est différent. Avec Granite 3.2, l’objectif est clair : produire un raisonnement paramétrable, gouvernable, auditif. Le mode « chain-of-thought » s’active seulement lorsque c’est nécessaire : il évite ainsi les dépenses cognitives inutiles, tout en favorisant une réflexion ciblée.

Enfin, la démonstration choc vient de DeepSeek, en Chine. Le modèle R1-Zero – entraîné uniquement par renforcement, sans supervision – raisonne à un niveau stupéfiant, au prix d’un langage bancal. Après distillation, R1 devient nettement plus stable. Et surtout : DeepSeek publie tout. Les poids. Le code. Les méthodes.

Une claque dans le paysage : il est possible d’approcher OpenAI… à un coût bien moindre.

Bien sûr, dans la nuit, alors que cet article était en boîte, Google a lancé Gemini 3. Et le saut est si spectaculaire qu’il fait clairement exploser le plafond de verre que l’on croyait désormais atteint et qui semblait empêcher les LLMs d’évoluer de façon spectaculaire. Nous y reviendrons dans un autre article dans la journée. Reste que Gemini 3 a du nécessiter des ressources dont seuls les hyperscalers peuvent disposer pour être entraîné et inféré.

L’Europe s’engouffre dans la brèche

En France, Mistral AI publie Magistral, deux modèles de raisonnement optimisés par une méthode maison, RLVR (Reinforcement Learning from Verifiable Rewards). Les résultats sont spectaculaires sur AIME : – 73,6 % de réussite pour Magistral Medium en pass@1 ; – 90 % en vote majoritaire @64. Mistral assume : « Le raisonnement est une compétence qui peut être apprise par échantillonnage et vérification. » Mais la communauté relève un point important : ce type de modèle coûte cher en inférence — parfois dix fois plus qu’un modèle classique.

En Allemagne, Aleph Alpha prend une autre route avec Pharia-1-LLM-7B-Control. Ici, pas de records de puzzles : l’objectif, c’est la souveraineté, la transparence, l’explicabilité, la conformité.

Le message européen se dessine : pas besoin de construire un titan pour être utile. Il faut construire une intelligence gouvernable.

Pour le DSI : un changement d’architecture mentale

L’ensemble de ces travaux finit par dessiner une vérité simple : l’IA ne peut plus être pensée comme un bloc monolithique. Elle devient un système à compétences distribuées, où chaque composant assume une fonction précise. Le LLM généraliste joue le rôle du narrateur et de l’interface – celui qui comprend, reformule et parle. Le modèle de raisonnement (TRM, HRM, o3, Magistral) agit comme l’expert interne, chargé de vérifier, optimiser et contrôler la cohérence. Autour d’eux, les outils métier – code, moteurs de règles, RAG, bases de connaissances – apportent l’exécution concrète. Et au-dessus de cet ensemble, un protocole comme MCP assure l’orchestration, la circulation de l’état et la coordination des décisions.

Dans cette architecture, le TRM devient l’inspecteur logique, le LLM l’interprète, les modèles de raisonnement profonds les stratèges, et l’entreprise, enfin, conserve la maîtrise de l’ensemble, en choisissant quel module intervient, quand, et pourquoi.

Des sentiers, pas encore des autoroutes

Il faut dire les choses sans détour. Les TRM sont brillants sur les puzzles, mais rien ne garantit qu’ils sachent généraliser. Ils maîtrisent leur domaine d’entraînement, point. Le monde réel est plus sale, plus contradictoire, plus imprévisible.

Les grands modèles de raisonnement, eux, sont puissants, mais coûteux. L’inférence longue de Gemini 3 Deep Think ou de GPT-5.1 Pro , les chaînes de pensée infinies… tout cela brûle des GPU et laisse un arrière-goût d’insoutenabilité. Et les chaînes de pensée « human-friendly » sont parfois… des fictions. Anthropic l’a montré.

Enfin, les benchmarks eux-mêmes sont partiels : exceller sur AIME ne signifie pas savoir gérer un incident IT ou comprendre les nuances d’un contrat d’assurance.

Sommes-nous en train d’enseigner à nos IA à mieux penser… ou simplement à mieux réussir nos examens ?

Pourquoi il faut tout de même explorer ces voies

Parce que ces travaux rappellent une évidence trop vite oubliée : on progresse en intelligence en changeant la structure, pas la taille. Parce qu’ils ouvrent une voie pour ceux qui ne rivaliseront jamais avec les hyperscalers en puissance brute : startups, administrations, établissements publics, ETI, secteurs régulés. Et parce qu’ils obligent les chercheurs à aller au fond des choses : qu’est-ce qu’un raisonnement fiable, comment auditer une chaîne de pensée, combien de calcul vaut la justesse, faut-il préférer un modèle plus lent mais plus rigoureux ? Le TRM qui boucle sur un Sudoku n’est pas une AGI, GPT 5.1 Pro n’est pas un juge, Magistral n’est pas un professeur de philosophie. Pourtant, tous rappellent que l’intelligence n’est peut-être pas une affaire de masse, mais de structure. Dans un monde fasciné par le gigantisme, ils montrent que la machine la plus puissante n’est pas celle qui parle le plus fort, mais celle qui sait, humblement, revenir sur ses pas.


À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights