

Data / IA
Les modèles à raisonnement : la nouvelle frontière de l’IA
Par Laurent Delattre, publié le 23 janvier 2025
L’intégration de mécanismes de raisonnement au cœur des modèles IA ouvre la voie à une nouvelle ère d’applications autonomes et contextuelles. Capables de planifier, décomposer des problèmes et tester des hypothèses, ces modèles révolutionnent des secteurs comme la logistique, les mathématiques et le diagnostic médical, tout en répondant aux limites des LLM traditionnels. Décryptage…
L’évolution des modèles d’intelligence artificielle (IA) se poursuit à un rythme effréné, bien que les LLM frontières tels que ‘GPT-5’, ‘Gemini 2.0 Ultra’ ou encore ‘Claude 3.5 Opus’ ne semblent pas près de sortir, ces technologies ayant atteint un plateau, un niveau où les progrès ne sont pas assez significatifs pour justifier les dépenses en infrastructure pour entraîner et inférer ses gigantesques modèles. D’autant que dans le même temps, les SLM font des progrès fulgurants et trouvent de nombreuses applications en entreprise, dans le cloud comme dans le Edge et la mobilité.
Pour continuer à faire progresser l’intelligence artificielle, les chercheurs explorent de nouvelles pistes de R&D afin de franchir de nouveaux paliers. Parmi ces pistes les « modèles à raisonnement » constituent une nouvelle tendance forte d’autant que les technologies qui les différencient peuvent aussi bien s’appliquer aux LLM frontières qu’aux SLM.
Des modèles qui raisonnent avant de parler
L’idée consiste à doter les modèles IA existants d’une capacité de réflexion plus proche de celle des humains. Contrairement aux modèles de langage de grande taille (LLM) traditionnels, qui se basent principalement sur des associations statistiques pour générer des réponses, les modèles de raisonnement intègrent des processus de délibération interne pour analyser et résoudre des problèmes complexes. En promettant de transformer en profondeur la façon dont les machines interprètent et résolvent des problèmes complexes, ces nouveaux modèles vont rapidement avoir des implications majeures pour de nombreux secteurs d’activité et de nombreux usages pratiques de l’IA.
Les LLM classiques, tels que GPT-4, sont entraînés sur de vastes ensembles de données textuelles, leur permettant de prédire le mot suivant dans une phrase et de générer du texte cohérent. Cependant, leur approche reste majoritairement basée sur des corrélations statistiques, sans véritable compréhension ou raisonnement sous-jacent. Ils excellent dans la génération de contenus fluides ou la synthèse d’informations préexistantes, mais peinent souvent à traiter des problèmes nécessitant des étapes logiques structurées ou une analyse d’abstraction. Bref, leur capacité « à raisonner » reste limitée.
En revanche, les modèles à raisonnement comme « OpenAI o1 » (mais il en existe bien d’autres comme nous allons le voir plus loin) cherchent à imiter le “niveau 2” (ou système 2) de la cognition humaine, qui implique une réflexion délibérée et structurée, permettant une meilleure cohérence des réponses et une capacité accrue à planifier et atteindre des objectifs à long terme.
Ces nouveaux systèmes ne se contentent pas de traiter l’information de manière linéaire. Ils sont conçus pour décomposer les problèmes complexes en sous-étapes, suivre des règles logiques ou encore intégrer des connaissances symboliques, comme des graphes ou des moteurs de résolution d’équations. Dit autrement, ils sont conçus pour « réfléchir » et « tester des hypothèses » avant de formuler une réponse.
Pourquoi ces modèles sont urgemment essentiels ?
Cela ressemble à une Lapalissade mais l’intégration de capacités de raisonnement dans les modèles d’IA est véritablement cruciale pour surmonter les limitations actuelles des LLM. Et ceci dans tous les domaines. Leur disponibilité constitue une nouvelle étape clé vers l’intelligence artificielle générale (AGI).
Ces capacités de raisonnement changent déjà toute la donne pour les usages en mathématiques, physique, chimie et d’une manière générale les usages scientifiques de l’IA. Les modèles comme « OpenAI o1 » et le futur « OpenAI o3 » démontrent un saut spectaculaire dans l’amélioration des scores de l’IA sur les benchmarks comme FrontierMaths ou ARC-AGI. Leur capacité à calculer, explorer des pistes, analyser, ouvre de nouvelles pistes dans les usages scientifiques des IA qui doivent ainsi permettre d’aider les humains à explorer davantage d’hypothèses et valider plus rapidement des théories.
Ces modèles sont aussi cruciaux dans des usages tels que le diagnostic médical en établissant des liens subtils entre des symptômes rares et des pathologies complexes.
Dans l’industrie, ils vont permettre d’optimiser la planification de ressources ou la gestion de chaînes logistiques en prenant en compte des variables extrêmement nombreuses et interdépendantes.
Enfin et surtout, par leur compréhension contextuelle profonde, leur capacité de planification stratégique et leur capacité à vérifier des hypothèses et résoudre de problèmes complexes en les décomposant, ils sont indispensables à un usage « actif et autonome » d’une IA pilotant une multitude d’agents IA concrétisant des opérations (agissant) et capables de prises de décision autonome.
Technologies concrétisant les modèles de raisonnement
Pour développer des modèles de raisonnement, les chercheurs explorent diverses approches technologiques.
L’une d’elles consiste à intégrer des mécanismes de délibération interne au sein des modèles, permettant à l’IA de “penser” avant de fournir une réponse. Les modèles dotés de tels mécanismes effectuent une sorte de vérification interne de leur travail pendant leur exécution, ce qui peut prolonger le temps nécessaire pour obtenir des résultats, mais améliore la précision et la cohérence des réponses. Cette approche est explorée par des entreprises comme DeepSeek et Alibaba, qui ont développé des modèles capables de planifier des séquences d’actions et de construire un modèle mental des effets de leurs actions.
Parmi ces mécanismes on peut évoquer la méthode Monte Carlo Tree Search (ou MCTS), une technique utilisée pour prendre des décisions dans des situations complexes, comme les jeux de stratégie (par exemple, les échecs ou le go). Dans cette approche, chaque décision possible est une branche d’un arbre. Pour chaque branche, MCTS effectue des simulations aléatoires (appelées “simulations Monte Carlo”) pour voir ce qui pourrait se passer si cette décision était prise puis évalue les résultats pour déterminer quelles décisions semblent les plus prometteuses. L’arbre de décisions est mis à jour avec les nouvelles informations obtenues des simulations de sorte que l’IA se concentre directement sur les branches les plus prometteuses lors des prochaines explorations.
Autre approche, « l’apprentissage par renforcement avec chaîne de pensée » (« chain of thought ») permet aux modèles de décomposer des problèmes complexes en étapes plus simples, en évaluant différentes stratégies pour chaque étape jusqu’à parvenir à une solution optimale. C’est typiquement l’approche mise en œuvre au sein des modèles “o1” d’OpenAI pour améliorer leurs performances dans des tâches nécessitant un raisonnement intensif, comme les mathématiques ou la planification complexe.
Autre piste en cours de défrichage chez Meta notamment, celle des LCM ou « Large Concept Models ». L’idée centrale est de faire travailler les modèles sur des “concepts” plutôt que sur des tokens de mots. Un concept, dans ce contexte, est une représentation abstraite d’une idée, indépendante de la langue ou du format (texte, parole, etc.). Dans une telle approche, les phrases ne sont plus décomposées en tokens de mots mais en « concept numérique » (via un système sémantique de haut niveau comme SONAR). En se concentrant sur des concepts de haut niveau, les LCM peuvent générer des textes plus cohérents et pertinents, tout en réduisant la complexité liée à la gestion de longues séquences de tokens.
Du raisonnement en SLM et open source
Avec un tel potentiel et de telles promesses, pas étonnant de voir les modèles à raisonnement se multiplier ces dernières semaines. Ils seront sans aucun doute l’une des grandes tendances IA de 2025.
OpenAI à officialiser les versions « finales » de « OpenAI o1 » et « OpenAI o1-mini » en décembre dernier. Et la jeune pousse star de l’IA a déjà dévoilé les futurs « OpenAI o3 » et « OpenAI o3-mini ».
De son côté, Google a répondu en dévoilant son « Gemini 2.0 Thinking Experimental », nouvelle version de son modèle pensé pour l’ère des Agents IA et intégrant des mécanismes de raisonnement (qui n’ont pas encore été détaillés).
Et contrairement à ce que l’on pourrait croire, ces principes de raisonnement ne se limitent pas aux grands modèles.
Microsoft expérimente ces principes sur ses petits modèles à commencer par son modèle Phi-4 qui n’est pas aussi performant que « Phi-3 » pour converser mais bien plus pertinents pour calculer et réfléchir.
Microsoft Research vient également de dévoiler rStar-Math, un framework permettant aux petits modèles de langage (SLM) d’atteindre des capacités de raisonnement mathématique comparables, voire supérieures, à celles des modèles plus grands en s’appuyant sur une méthode MCTS.
DeepSeek, une startup chinoise spécialisée en IA, a introduit DeepSeek-R1, un modèle open-source qui rivalise avec les performances des modèles « OpenAI o1 » (au moins sur certains des tests ARC-AGI) dans des domaines tels que les mathématiques, le codage et le raisonnement. Ce modèle utilise l’apprentissage par renforcement pour améliorer ses capacités sans recourir à des données supervisées.
Le géant technologique chinois Alibaba a publié, là aussi en open source sur GitHub, deux modèles de raisonnement : Marco-o1 et QwQ-32B-Preview. Ces modèles (disponibles directement sur le portail Hugging Face) sont surtout conçus pour traiter des invites longues mais intègrent également des mécanismes d’auto-vérification des faits, leur permettant de résoudre des problèmes complexes de logique et de mathématiques. Selon Alibaba, ces modèles surpassent certaines versions des modèles d’OpenAI sur quelques benchmarks spécifiques.
Nouveaux modèles… Nouveaux défis…
Toutefois, cette avancée IA s’accompagne de défis, notamment en matière de contrôle et de sécurité, car ces capacités de raisonnement accrues augmentent presque mécaniquement les risques liés à l’IA, tels que la manipulation ou l’utilisation malveillante. Si les modèles à raisonnement offrent une précision et une fiabilité accrues, leur adoption doit être accompagnée de nouveaux garde-fous pour garantir leur utilisation responsable. Bien évidemment, la confiance accordée à ces systèmes ne doit pas se substituer à une vigilance humaine, particulièrement dans des domaines sensibles comme la décision autonome, la santé ou la justice. Mais il faut aussi renforcer nos approches de tests et évaluations de l’IA.
OpenAI a du radicalement changer son approche du Red Teaming et de l’évaluation de la sûreté de l’IA pour son nouveau modèle « o3 ». Les chercheurs ont notamment montré que ces modèles avaient des comportements inattendus comme une propension à penser en Chinois (langue plus symbolique) ou encore un étrange mécanisme leur permettant de masquer (de façon non intentionnelle) leur « pensée » primaire pour mieux satisfaire les attentes humaines.
Autre défi, leur complexité accrue nécessite des ressources informatiques considérables, entraînant des coûts opérationnels encore plus élevés et une empreinte énergétique encore plus significative. Par exemple, l’utilisation de l’API d’OpenAI pour ‘o1’ entraîne des frais de 15 $ pour l’analyse de 750 000 mots et 60 $ pour chaque 750 000 mots générés, des tarifs jusqu’à quatre fois plus élevés comparés aux modèles traditionnels comme GPT-4. Et l’on sait que le mode « High Computation » du futur modèle « o3 » se montre encore plus coûteux (l’exécution du benchmark ARC-AGI dans ce mode aurait coûté plus de 100.000 dollars).
Ce progrès n’est donc pas uniquement technique, il est aussi « philosophique ». Les modèles à raisonnement nous contraignent à un impératif de confiance et d’interprétabilité dans un monde où l’IA joue un rôle de plus en plus central. La transparence et la traçabilité des décisions de l’IA seront rapidement indispendables pour garantir la confiance. Plus que jamais la confiance accordée à ces systèmes ne doit pas se substituer à une vigilance humaine, particulièrement dans des domaines sensibles comme la santé ou la justice. C’est d’ailleurs exactement ce qu’impose l’AI Act européen !
En définitive, les modèles à raisonnement représentent bien plus qu’une simple évolution technologique : ils incarnent une transformation profonde de notre relation à l’intelligence artificielle. En redéfinissant ce que signifie « comprendre » et « raisonner » pour une machine, ils ouvrent la voie à des systèmes capables de s’attaquer aux défis les plus complexes de notre époque. Plus encore lorsqu’ils seront associés/combinés à l’informatique quantique. Le futur, porté par ces nouveaux outils, pourrait bien ressembler encore un peu moins à de la science-fiction et bien davantage à une science « augmentée »…
À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :
