Data / IA
Vers une IA moins gourmande : Et si nous n’avions plus besoin de données massives ?
Par Laurent Delattre, publié le 06 janvier 2026
Et si le vrai “turbo” de l’IA n’était pas la data qu’elle ingurgite, mais le câblage interne ? Une nouvelle étude de l’université John Hopkins montre qu’en peaufinant les architectures des réseaux convolutifs, il est possible d’obtenir des modèles plus frugaux qui n’ont pas besoin d’avaler des milliards de données pour être pertinents. De quoi mettre nos LLM au régime ?
C’est un fait entendu : l’IA est un ogre insatiable qui dévore des quantités astronomiques de données pour apprendre à voir, comprendre, parler. Mais ça ne sera pas nécessairement toujours le cas à l’avenir. Une étude récente de l’université Johns Hopkins vient en effet bouleverser ce paradigme. Et si le secret d’une IA performante ne résidait pas dans la quantité de données ingurgitées, mais dans la manière dont on construit son « cerveau » dès le départ ?
Aujourd’hui, pour qu’un algorithme IA soit capable de distinguer un chat d’un chien avec précision, la méthode standard est la « force brute » : on l’entraîne avec des millions, voire des milliards d’images. C’est le principe du Deep Learning. Cette approche, bien que spectaculairement efficace, a un coût exorbitant pour l’entreprise comme pour la planète. Elle nécessite des mois de calculs, des infrastructures informatiques massivement parallèles, une consommation énergétique pharaonique et des budgets se comptant en centaines de millions de dollars.
Pourtant, comme le dénonce Yan LeCun depuis des années, cette débauche de moyens technologiques et énergétiques contraste singulièrement avec la biologie. Un enfant n’a pas besoin de voir un milliard de chats pour en reconnaître un. Quelques exemples suffisent. C’est ce fossé entre l’efficacité biologique et la lourdeur technologique que des chercheurs de l’université Johns Hopkins cherchent à combler.
Ils ne sont évidemment pas les seuls. Les équipes de Yann LeCun, d’abord au sein du FAIR de Meta et désormais au sein de sa nouvelle startup « AMI Labs » cherchent à imaginer des World Models s’appuyant sur une architecture JEPA (Joint Embedding Predictive Architecture) afin d’obtenir des IA capables de comprendre les lois physiques du monde, d’avoir du « bon sens », de planifier et de raisonner comme le ferait un animal ou un humain.
Parallèlement, Alexia Jolicoeur-Martineau au sein du Samsung SAIT/SAIL Montréal a bouleversé les convictions de l’écosystème IA en 2025 avec ses TRM pour Tiny Recursive Models. Prenant le contre-pied absolu du gigantisme ambiant, ces modèles « lilliputiens » (comptant parfois moins de 10 millions de paramètres) démontrent qu’il n’est pas nécessaire d’être immense pour être intelligent. Grâce à la récursivité, les TRM compensent leur petite taille par une réflexion « en boucle », affinant leurs réponses par itérations successives. Cette architecture les rend redoutables en raisonnement logique tout en restant assez légère pour fonctionner directement sur des objets connectés, alliant ainsi puissance de calcul et sobriété énergétique.
L’architecture avant l’apprentissage
Les chercheurs de l’université Johns Hopkins explorent de nouvelles pistes parallèles. Leur étude, publiée dans Nature Machine Intelligence et dirigée par le professeur Mick Bonner, part d’une hypothèse finalement assez simple : « Et si la structure même du réseau de neurones était plus importante que son entraînement ? ».
Pour le vérifier, l’équipe a mené une expérience comparant trois types d’architectures d’IA couramment utilisées :
– Les Réseaux complètement connectés (anciens modèles classiques) ;
– Les Transformers (la technologie derrière ChatGPT) ;
– Les Réseaux convolutifs (plus utilisés dans l’analyse d’images).
Les chercheurs les ont ensuite déclinées en dizaines de variantes en modifiant leur « morphologie » (notamment la largeur, c’est-à-dire le nombre d’unités internes). L’originalité de l’expérience réside dans le fait que ces réseaux ne sont pas pré-entraînés : l’idée est d’évaluer ce que l’architecture « donne » avant l’expérience, un peu comme l’organisation du cortex existe avant un apprentissage fin par la vie.
Ils ont ensuite « stimulé » ces réseaux de neurones artificiels avec les mêmes stimuli formés d’images d’objets, de personnes et d’animaux. Ils ont ensuite comparé l’activité interne de ces réseaux IA avec l’activité cérébrale humaine face aux mêmes images. L’article scientifique décrit explicitement cette évaluation comme une capacité à prédire des représentations d’images dans les cortex visuels de singes et d’humains.
L’étude ne prétend pas que l’entraînement est inutile. Elle teste plutôt une hypothèse précise : si la donnée massive était le facteur déterminant, alors modifier l’architecture « à froid » ne devrait pas rapprocher un modèle du cerveau. Or, c’est exactement ce rapprochement que les auteurs observent mais pas avec n’importe quel type de réseau.
Des enseignements inattendus
Pour les Transformers et les réseaux « fully connected », augmenter la complexité n’a rien changé : leur réaction restait très éloignée de celle d’un cerveau biologique.
En revanche, les réseaux convolutifs (CNN) ont créé la surprise. Sans jamais avoir vu une seule image auparavant, et simplement grâce à une architecture interne optimisée ressemblant à celle du système visuel, ils ont manifesté des modèles d’activité neuronale étonnamment proches de ceux du cerveau humain. Plus impressionnant encore : ces réseaux « non entraînés » ont rivalisé avec des modèles classiques qui, eux, avaient passé des mois à analyser des banques d’images gigantesques.
Plus techniquement, le papier met un projecteur sur deux manipulations de dimensionnalité qui, combinées dans une architecture convolutionnelle, font émerger des représentations « alignées » avec le cortex cérébral humain :
– une compression spatiale via le pooling (réduction progressive de la résolution spatiale),
– une expansion dans l’espace des caractéristiques via l’augmentation du nombre de channels (canaux) autrement dit, plus de « dimensions » de description pour ce que le modèle extrait.
Dit plus simplement : le réseau apprend « à voir » (au sens de structurer une représentation interne utile) non pas parce qu’il a été entraîné sur un océan de données, mais parce que sa géométrie interne impose des contraintes proches de celles du système visuel biologique. Les auteurs parlent ici d’inductive bias (biais inductif) : une préférence intégrée dans le modèle, qui oriente naturellement les solutions possibles.
Un retour aux sources biologiques
Cette découverte suggère que l’évolution a doté notre cerveau d’une architecture spécifique pour la vision, une sorte de « plan de construction » idéal qui nous permet d’apprendre très vite. En copiant ce plan (les réseaux convolutifs), l’IA part avec une longueur d’avance considérable.
Comme l’explique Mick Bonner, « Si l’entraînement sur des données massives était le seul facteur crucial, on ne pourrait pas obtenir une IA ressemblant au cerveau uniquement par des modifications architecturales. »
Dans un pipeline classique, une grande partie des données sert à « sculpter » des représentations de base (invariances, hiérarchies, régularités spatiales/temporales). Si l’architecture injecte déjà une partie de ces régularités, l’apprentissage peut se concentrer sur l’adaptation au domaine, les cas rares, et les objectifs métier. L’étude montre ainsi que moins un modèle est obligé d’apprendre des régularités fondamentales à partir de zéro, moins il a besoin d’exemples pour converger. Partir d’un meilleur « plan » de réseau neuronal pourrait donc accélérer drastiquement l’apprentissage, tout en réduisant coûts et énergie.
Des perspectives passionnantes
Ces dernières années, la communauté IA a beaucoup misé sur l’échelle des données et du calcul. Sur le fond, la publication des chercheurs de l’université John Hopkins remet au centre du jeu IA une idée plus « systèmes » : l’architecture, donc les contraintes intégrées, peut compter autant que l’optimisation par la data. Si nous parvenons à concevoir des architectures de réseau de neurones qui imitent mieux la biologie dès leur « naissance », nous pourrions réduire drastiquement le besoin en données massives. L’idée rappelle furieusement les travaux de Yann LeCun sur l’architecture JEPA.
Cela ouvrirait la voie à des systèmes d’intelligence artificielle beaucoup plus sobres en énergie, moins coûteux à développer et capables d’apprendre, comme nous, à partir de quelques exemples seulement. L’avenir de l’IA ne se jouera peut-être plus dans la course au gigantisme des bases de données, mais dans l’élégance et la pertinence de son architecture initiale. Autrement dit, un cerveau artificiel bien fait plutôt que bien rempli…
Source : Convolutional architectures are cortex-aligned de novo | Nature Machine Intelligence
À LIRE AUSSI :
À LIRE AUSSI :
À LIRE AUSSI :
