xAI dévoile Grok-4, son nouveau modèle à réflexion qui explose les benchmarks et met un vent à la concurrence

Data / IA

Elon Musk lance Grok 4 et une offre à 300$ par mois

Par Laurent Delattre, publié le 10 juillet 2025

Survitaminé au RL, Grok-4 de xAI vient bousculer ChatGPT, Claude et Gemini sur leurs propres terrains. Sa version “Heavy” va même jusqu’à former et contrôler un commando d’agents IA travaillant de concert afin d’écraser les scores aux benchmarks. Mais l’entrée dans le club SuperGrok Heavy coûte très cher…

Grok, l’IA de la jeune pousse xAI créée par Elon Musk, est ouvertement présentée par ses créateurs comme une IA plus libre dans ses propos que ces concurrents directs ChatGPT et Claude. Plus libre, l’IA de xAI l’a en effet démontré cette semaine en « déraillant », tenant des propos antisémites et s’auto-présentant comme un « Mecha-Hitler ». Un bug lié selon xAI à un problème de configuration et, selon Elon Musk, à un tempérament « trop docile », l’IA étant « en somme, trop désireuse de plaire et de se laisser manipuler », un comportement désormais en cours de correction.
En réalité, et ce n’est pas un hasard, Grok se montre plutôt aligné sur la pensée d’Elon Musk qui considère ChatGPT et Claude comme des IA « Woke ».

C’est dans ce chaos ambiant que xAI a introduit aujourd’hui deux nouveaux modèles : Grok-4 accessible aux abonnés payants SuperGrok et Grok-4-Heavy accessible aux abonnés du nouveau forfait « SuperGrok Heavy » facturé 300 dollars par mois.

Sur le fond, Grok-4 se démarque de Grok-3 par des capacités de réflexion très avancées notamment issues d’une phase d’entraînement par RL (Reinforcement Learning, ou apprentissage par renforcement en français) qui a nécessité dix fois plus de puissance que l’apprentissage de Grok-3 et l’utilisation de toute la puissance GPU du superordinateur Colossus de xAI.

De son côté, Grok-4-Heavy se démarque de Grok-4 par sa capacité à lancer simultanément plusieurs agents afin de réaliser les tâches les plus compliquées. Les différents agents comparent ensuite leurs résultats pour formuler la réponse la plus juste et la plus complète. Dit autrement, Grok-4-Heavy se comporte non pas comme une IA unique mais comme un « groupe d’étude » qui analyse le problème par différents angles afin de résoudre des problèmes d’une grande complexité.

Évidemment, xAI clame à qui veut l’entendre que Grok-4 est l’IA la plus intelligente. De façon assez amusante, on notera d’ailleurs que l’IA devient un peu plus intelligente au fil de la présentation. Elon Musk a commencé par la qualifier d’IA « plus intelligente que la plupart des étudiants diplômés dans toutes les disciplines ». Quelques minutes plus tard, Grok-4 était « d’un niveau doctorat dans tous les domaines ». Et en fin de présentation Grok-4 était même « meilleur que les doctorants ».

Selon xAI, Grok-4 n’est pas simplement meilleur que les autres, il évolue dans une autre dimension, dans « sa propre league ».

Des benchmarks plutôt parlants

Au-delà des superlatifs, plusieurs benchmarks sont venus éclairés les progrès réalisés et la supériorité (qui reste à vérifier sur les usages concrets et non simplement sur des benchs) de Grok-4 sur OpenAI o3, Claude Opus 4 et Gemini 2.5 Pro.

Ainsi sur le très exigeant benchmark HLE (Humanity’s Last Exam) et ses 2500 de questions expertes, Grok-4 atteint un score à deux chiffres là où les autres modèles dépassent rarement le simple chiffre. Surtout, en mode « Grok-4 Heavy » avec accès aux outils, le modèle a pu résoudre plus de 50% des questions uniquement basées sur du texte. Un record absolu.

Selon Artificial Analysis, Grok-4 domine son ensemble de tests et obtient un score de 73, là où OpenAI o3 et Gemini 2.5 atteignent 70, et Claude Opus 4 atteint 64.

Autre benchmark très actuel et réputé, Grok-4-Heavy domine désormais très largement le classement du « ARC-AGI v2 » atteignant un score de 16% contre 8% pour Claude Opus 4 et de 6% pour o3-High.

Si les progrès semblent indiscutables, force est de reconnaître qu’il reste encore beaucoup de marge de progression à ces IA avant d’atteindre le niveau de l’AGI. Il faudra vérifier la véracité de cette appréciation sur les cas d’usage des entreprises bien évidemment. Surtout, xAI va devoir trouver les bonnes garanties pour rassurer les DSI, RSSI et autres responsables d’entreprises européennes sur sa neutralité et sa capacité à ne pas halluciner. Un défi qui est encore loin d’être gagné.

Quoiqu’il en soit, xAI vient à nouveau de relever la barre de l’intelligence artificielle et vient mettre la pression sur OpenAI qui de son côté semble préparer une sortie imminente de GPT-5. Parallèlement xAI travaille à augmenter les capacités multimodales de Grok avec des fonctionnalités de génération vidéo qui devrait être bientôt disponible, sur une meilleure perception du monde physique (une quête qui rappelle celle de Meta et de Yann Le Cun) et une version spéciale « Grok Code » pour concurrencer les IA de développement que sont Cursor, OpenAI Codex, Claude Code, GitHub Copilot Agent Mode et Google Jules.
L’été promet d’être très animé du côté des IA…



À LIRE AUSSI :

À LIRE AUSSI :



Dans l'actualité

Verified by MonsterInsights