Crédit photo : OpenAI

Cloud

Pourquoi l’intelligence ludique d’OpenAI va servir l’IA d’entreprise

Par Laurent Delattre, publié le 02 juillet 2018

OpenAI vient d’annoncer que son IA est prête à affronter des équipes humaines lors du prochain tournoi e-sport sur DOTA 2. Et c’est une bonne nouvelle pour les entreprises…

OpenAI, l’association à but non lucratif d’Elon Musk et Sam Altman, qui cherche à promouvoir une intelligence artificielle bénéfique à l’humanité, vient d’annoncer que ses nouveaux bots intelligents ont réussi à défaire une équipe d’humains, certes amateurs, dans un tournoi organisé pour l’occasion sur le jeu DOTA 2. Elle s’apprête dédormais à confronter son IA aux meilleurs joueurs d’e-sports lors de la grande convention annuelle The International en août prochain.

À première vue, cette actualité ludique n’a guère d’intérêt pour les entreprises et leur DSI. Pourtant, c’est exactement l’inverse.
D’abord parce que les principes qui conduisent à cette expérimentation ne sont pas sans rappeler ceux de la « gamification » de plus en plus prisée en entreprise. L’idée consiste à utiliser le jeu pour se préparer à des situations réelles, et donc, au final, apprendre par le jeu.
Ensuite, parce que les technologies sous-jacentes trouveront très prochainement des applications directes industrielles ou professionnelles dans la sécurité des usines et des bâtiments, dans l’optimisation des trafics urbains ou des placements de produits dans un supermarché, etc.

Un défi différent

Ce n’est évidemment pas la première fois qu’une IA se confronte aux jeux. Les chercheurs de Microsoft avaient déjà battu le record à Mrs Pacman grâce à une IA l’an dernier. Et tout le monde garde en tête les exploits d’IBM et Google sur les jeux d’échec et de Go. Mais contrairement à ces derniers, où l’échiquier est fixe et où l’ordinateur peut calculer tous les coups possibles pour trouver le meilleur, un jeu en mode ouvert comme DOTA constitue un défi autrement plus complexe. Pour le relever, plusieurs IA doivent collaborer pour former une équipe de 5 joueurs et affronter une autre équipe de 5 joueurs. De plus, là où un jeu d’échecs se termine en quelque 40 coups (il en faut environ 150 dans le jeu de Go), une partie DOTA 2 prend environ 45 minutes à raison de 30 images par secondes. L’IA n’analysant la situation que toutes les 4 images, il en résulte une planification sur 20 000 « coups ». En outre, alors qu’aux échecs et au jeu de Go, l’intégralité de l’échiquier est visible, la carte de DOTA est partiellement couverte d’un brouillard qui masque les stratégies et mouvements opposés. Enfin, DOTA 2 est un jeu complexe où chaque joueur se voit attribuer une classe avec ses faiblesses, ses armes et ses points forts.

Des IA collaboratives

De l’aveu même de Bill Gates, « l’expérience d’OpenAI constitue une étape majeure en matière d’intelligence artificielle parce que la victoire de ces bots requiert collaboration et travail en équipe de plusieurs IA ». L’équipe artificielle « OpenAI Five » se compose en effet de 5 réseaux neuronaux récurrents à mémoire (LSTM – Long Short Term Memory networks) similaires au réseau de neurones qui donnait son « intelligence » à l’AlphaGo Zero de Google, la version de l’IA maître du jeu de Go qui s’est éduquée sans intervention humaine.
Plus souvent exploités pour le traitement du langage naturel, les réseaux LSTM – imaginés en 1997 par Hochreiter et Schmidhuber – ont la particularité de « savoir » tenir compte des contextes et se montrent plus adaptés aux problématiques de planification stratégique qu’on ne le pensait à l’époque.  

Un déluge de puissance

En utilisant un LSTM distinct pour piloter chaque joueur de l’équipe « OpenAI Five » et sans aucune donnée humaine préalable, le système a appris de lui-même à reconnaître des stratégies gagnantes (et celles perdantes). Grâce à ses 256 GPU et 128 000 cœurs CPU (le tout étant hébergé sur Google Cloud Platform), OpenAI Five joue en accéléré contre lui-même – et quotidiennement – l’équivalent de 180 années de parties DOTA 2 !
Même si les responsables du projet en doutaient au départ, OpenAI Five vient confirmer que l’apprentissage par renforcement (Reinforcement Learning, technique d’apprentissage basé sur l’essai et l’échec qui permet au réseau d’évoluer d’un comportement pseudo aléatoire vers un comportement plus stratégique) peut produire une planification à long terme et à grande échelle. Le système se révèle en effet doué dans la priorisation des objectifs d’une équipe (d’autant qu’en l’absence de tout égo, les bots n’hésitent pas à se sacrifier ou abandonner l’un des leurs si nécessaire).

Un potentiel encourageant

Cette expérimentation ouvre de nouvelles perspectives. Jusqu’ici la plupart des recherches en intelligence artificielle s’appuyaient sur des réseaux de neurones opérant indépendamment et en relative autonomie. L’expérience d’OpenAI démontre qu’une forme de coordination et de coopération peut émerger mécaniquement d’un ensemble de réseaux de neurones. Les applications professionnelles sont variées, allant de l’optimisation en temps réel d’un réseau routier à la gestion automatisée de portefeuilles boursiers ou encore l’optimisation de placements publicitaires. D’autant que l’IA peut très bien être utilisée pour coopérer en équipe avec des humains. L’association OpenAI s’est d’ailleurs livrée à un test amusant en remplaçant l’un des 5 bots par un joueur expérimenté. Ce dernier s’est étonné de voir les bots s’évertuer d’eux-mêmes à lui fournir tout ce dont il avait besoin.

 

Dans l'actualité

Verified by MonsterInsights