BrowseComp, le nouveau benchmark d'OpenAI pour mesurer la pertinence et l'efficacité des agents IA d'exploration Web façon Deep Research

Data / IA

BrowseComp : le benchmark d’OpenAI qui évalue les agents IA de recherche “Deep Research”

Par Laurent Delattre, publié le 06 mai 2025

Face à la saturation du web, les agents IA doivent apprendre à fouiller en profondeur, croiser les sources et réfléchir avant de répondre : BrowseComp, le nouveau Benchmark imaginé par les chercheurs d’OpenAI, les met à l’épreuve sans ménagement.

D’une manière générale; les Benchmarks passionnent les acteurs de l’IA. Ils leur permettent de mesurer les progrès d’une génération de modèles IA à une autre, de se mesurer à la concurrence (ce que leur marketing apprécie tout particulièrement, quitte à tricher un peu), d’inscrire leur démarche d’innovation dans une amélioration continue, de démontrer les points forts de leur dernier modèle, etc.

Comme tous les acteurs, OpenAI use et abuse de la pléthore de benchmarks IA pour faire valoir les qualités de ses modèles. Même si tous les DSI ont désormais bien conscience que les performances d’un modèle sur un Bench ne présagent en rien de la supériorité de ce modèle sur leurs cas d’usage en production.

Mais la jeune pousse phare de l’IA générative apporte également sa propre expertise à la création de nouveaux benchmarks. En février dernier, ses ingénieurs avaient déjà présenté « SWE-Lancer » pour évaluer les capacités des modèles d’intelligence artificielle dans le domaine de l’ingénierie logicielle freelance. Il teste les modèles sur des tâches réelles comme la correction de bugs et l’ajout de nouvelles fonctionnalités. L’objectif est de mesurer la qualité du code produit, la rapidité d’exécution et la capacité à gérer des tâches de complexité variable. 

BrowseComp : le Benchmark des agents IA qui explorent le WEB

Cette semaine, OpenAI a dévoilé un nouveau benchmark dénommé BrowseComp et spécialement pensé pour auger la faculté des agents d’IA à dénicher des informations rares dans les profondeurs du web. Conçu comme un « concours de navigation », ce benchmark se démarque des tests classiques de type SimpleQA : alors que ces derniers se satisfont de faits isolés faciles à extraire, BrowseComp exige de l’agent qu’il emprunte des chemins de recherche multiples, se montre persévérant et vérifie scrupuleusement la fiabilité des sources.

Dit autrement, BrowseComp évalue la capacité des agents d’IA à trouver des informations difficiles à localiser sur le web, nécessitant souvent de naviguer à travers de nombreux sites. Il teste à la fois la persistance et la créativité des agents IA dans des tâches de recherche approfondie.

Au total, le benchmark repose sur un jeu de 1266 questions. Pour garantir la difficulté, les concepteurs ont écarté tout item qui apparaissait dans la première page de cinq requêtes Google distinctes et ont vérifié que GPT‑4o – avec ou sans fonction de navigation –, OpenAI o1 et un prototype de modèle « Deep Research » échouaient à y répondre. Les questions reposent sur une logique d’« inversion » : partir d’un fait vérifiable, puis formuler une interrogation combinant plusieurs critères (auteur, période, affiliation, etc.) de sorte que la réponse soit courte, unique et quasi introuvable par simple lecture de documents ou exploration brute‑force.

Un Benchmark difficile pour motiver l’innovation

Les premiers résultats internes montrent que le modèle Deep Research d’OpenAI résout environ la moitié des problèmes, loin devant les autres systèmes testés. L’écart illustre la nécessité, pour les futures plateformes d’assistance, de savoir alterner exploration large, raisonnement factuel et adaptation de la stratégie de requête — trois compétences au cœur des attentes d’utilisateurs confrontés à la surabondance d’information.

La publication attise déjà le débat sur l’évolution du Search. Michael Buckbee (Knowatoa) juge que « si une innovation menace le marché traditionnel de la recherche, ce sont bien les agents de “recherche approfondie” ». Selon lui, « nous filons vers un avenir où l’utilisateur ne verra plus les résultats, mais seulement les rapports produits par l’IA ».
Pour Nishant Sinha, conseiller en IA, BrowseComp « pousse les agents au-delà du simple repérage d’éléments visibles ; il faut maintenant franchir plusieurs portes pour débusquer la bonne donnée ».

Disponible en open source sur GitHub avec son article scientifique, BrowseComp ne prétend pas couvrir l’ensemble des scénarios réels. Mais, à l’image des compétitions de programmation pour les modèles de code, il offre un indicateur pertinent de la capacité d’une IA à persévérer et à faire preuve de créativité lorsqu’il s’agit de retrouver des informations critiques, un prérequis de plus en plus incontournable pour la veille stratégique et la gestion des risques. Et particulièrement utile alors que les agents « Deep Research » se multiplient sur le marché et promettent de métamorphoser notre façon de créer des rapports, de faire de la veille technologique et d’explorer un savoir.


À LIRE AUSSI :

À LIRE AUSSI :

À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights