Newtech
L’intelligence artificielle en quête d’accélérateurs GPU et NPU
Par Laurent Delattre, publié le 19 mars 2024
L’intelligence artificielle transforme radicalement le paysage technologique. Nécessitant des solutions de calcul intensif pour former et exécuter des modèles toujours plus complexes, elle est en passe de métamorphoser les architectures en multipliant les GPU et NPU. Un univers encore bien trop bouillonnant d’innovation pour faire preuve de maturité.
Selon Yann Le Cun, le célèbre patron français de l’IA chez Meta, « Il y a une guerre de l’IA, et Nvidia en fournit les armes ». De fait, en un an, portés par l’IA générative, le chiffre d’affaires de Nvidia a bondi de plus de 57 % et sa valorisation boursière de +450 % pour dépasser les 2.200 Md$. C’est plus de trois fois celles d’Intel et AMD réunies. Des chiffres qui illustrent à eux seuls l’actuel besoin en GPU et tout autre moyen d’accélérer l’IA.
Une course à l’accélération de l’IA que Nvidia a su anticiper et gérer mieux que la concurrence et qui éclaire sous un jour nouveau non seulement l’importance des GPU au cœur des serveurs, des datacenters et des infrastructures cloud, mais aussi le besoin de développer d’autres pistes moins onéreuses et plus économes en énergie. Intel, AMD, et les acteurs du cloud, se sont lancés dans cette quête et développent des accélérateurs IA pour couvrir les besoins les plus variés.
Pourquoi accélérer l’IA ?
« Qu’il s’agisse de LLM, dont les nombres de paramètres se chiffrent en dizaines voire centaines de milliards, de jumeaux numériques capables de prévoir l’avenir du changement climatique, ou de réseaux neuronaux formés à partir d’images pour aider à détecter le cancer à un stade plus précoce, l’IA a besoin d’accélérateurs », rappelle Guillaume Caldin, business development executive chez AMD France. Il en est ainsi du projet européen Destination Earth – qui vise à reproduire l’écosystème de la Terre au kilomètre carré près pour mieux appréhender les changements climatiques et éventuellement en modifier le cours – ou du réseau neuronal ComPatAI – entraîné sur des millions d’images d’échantillons de tissus pour aider à détecter le cancer plus tôt et à simuler plus rapidement l’efficacité des médicaments. Chacun perçoit aisément que de tels projets nécessitent des infrastructures hors normes.
Pour ses IA et celles d’OpenAI, Azure a ainsi bâti pas moins de sept HPC classés dans le Top 500 des machines les plus puissantes de la planète, et dont le plus performant figure en troisième position ! Dénommé Eagle, il embarque 14 400 GPU Nvidia H100. Il n’en faudra probablement pas moins pour entraîner le futur modèle multimodal GPT-5. Oracle Cloud met à disposition des entreprises son OCI Supercluster capable d’interconnecter jusqu’à 32 000 GPU Nvidia H100 au sein d’un même cluster dédié à l’IA. En Europe, Scaleway a dépensé 200 M€ dans Nabu, son supercalculateur d’IA équipé de 127 systèmes Nvidia DGX H100 contenant 1 016 GPU Nvidia H100 et notamment mis à disposition de la fondation Kyutai. Pour entraîner les nouveaux modèles IA, impossible de faire dans la demi-mesure.
Stephan Gillich
EMEA director AI GTM – Intel
« Intel étudie un large éventail de technologies, y compris certaines semblables à celles du cerveau comme notre Loihi 2 pour l’informatique neuromorphique. »
Ce besoin de puissance, les CPU classiques peuvent difficilement l’assouvir. L’IA est donc en quête d’accélérateurs. Dès 2020, un rapport du CSET (Center for Security & Emerging Technology) remis au gouvernement américain estimait que « des processeurs dédiés à l’IA seront trois fois plus rentables que des CPU si l’on tient compte des coûts de production et d’exploitation » et alertait les autorités sur l’importance d’être leader sur un tel marché.
Et si l’IA a besoin d’infrastructures gigantesques pour l’entraînement de ses modèles, elle a aussi besoin d’une performance différente, mais tout aussi critique pour l’inférence (autrement dit l’exécution) des modèles entraînés.
« L’apprentissage d’une IA est beaucoup plus lourd en termes de calcul et de mémoire, et implique une plus grande précision ; cela peut prendre des semaines, voire des mois, pour former et ajuster complètement un modèle », explique Stephan Gillich, EMEA director AI GTM chez Intel, qui constate également que le problème de l’inférence diffère de celui de l’apprentissage. « L’inférence de l’IA tend à utiliser une faible précision, mais est critique en termes de latence. On vise généralement moins de 100 ms par jeton dans le cas des LLM. Cela correspond à la vitesse de lecture d’un lecteur humain rapide ».
Résultat, l’IA est ainsi en train de profondément redéfinir les architectures informatiques du PC jusqu’au cloud et à l’edge à grands coups de GPU et autres accélérateurs dédiés. Et ce n’est que le début.
Pourquoi des GPU plutôt que des CPU ?
« Les processeurs graphiques modernes dépassent de loin les capacités de calcul des processeurs multicœurs et ont le potentiel de révolutionner les méthodes d’apprentissage profond non supervisé », écrivait dès 2008 l’équipe d’Andrew Ng du Stanford Institute dans un papier exploratoire sur l’IA.
Utiliser des GPU pour du calcul n’est en effet pas une idée nouvelle. « À partir de 2006, suite au lancement de Cuda, plateforme de calcul parallèle et modèle de programmation créés par Nvidia, l’utilisation des GPU s’est étendue à de nombreux autres champs d’applications. Elle se révèle désormais essentielle pour un grand nombre d’applications et notamment l’IA, rappelle Jean-Charles Vasnier, senior solution architect chez Nvidia. Cuda a débloqué le deep learning en rendant accessible des architectures massivement parallèles. »
Guillaume Caldin
business development executive – AMD France
« L’efficacité énergétique est de la plus haute importance pour les communautés HPC et AI, car ces workloads sont extrêmement gourmands en données et en ressources. »
Une opportunité qui a permis à des frameworks open source comme TensorFlow et PyTorch d’exploiter la puissance des GPU sans que les développeurs IA n’aient à écrire du code Cuda de bas niveau, assurant du même coup la popularité des GPU de Nvidia dans l’univers de la recherche en IA.
Dans son AI Index Report 2023, le Human-Centered AI Group du Stanford Institute explique que la performance brute des GPU « a augmenté d’environ 7 000 fois depuis 2003 » et que « le nombre de flop/s disponibles par dollar dépensé est 5 600 fois supérieur ». Au-delà de ces chiffres, sans commune mesure avec la Loi de Moore qui a longtemps dicté l’évolution des CPU, trois raisons principales expliquent la supériorité des GPU sur les CPU. D’abord, les GPU sont conçues pour réaliser de nombreux calculs en parallèle, notamment les calculs matriciels très utilisés dans l’entraînement des modèles. Ensuite, les GPU ont une architecture adaptée : elles sont conçues pour des tâches informatiques moins générales. Elles ont aussi beaucoup plus de cœurs de traitement que les CPU, ce qui leur permet d’effectuer des calculs beaucoup plus rapidement. Enfin, elles ont une bande passante mémoire supérieure, grâce à des architectures de mémoire spécialisées, des bus mémoire élargis et des vitesses d’horloge mémoire élevées.
Ces derniers mois, les fabricants de GPU ont introduit des fonctionnalités spécifiques pour encore améliorer l’efficacité des GPU sur les workloads IA. « Nos GPU embarquent des “tensor cores” qui accélèrent les grandes opérations matricielles au cœur du framework TensorFlow et effectuent des calculs de multiplication et d’accumulation de matrices en précision mixte en une seule opération. S’y ajoutent, avec l’architecture Hopper des H100 et H200, des “transformer engines” accélérant les opérations de type GPT », explique Jean-Charles Vasnier.
Jean-Charles Vasnier
senior solution architect – Nvidia
« Les GPU effectuent bien plus de travail pour chaque unité d’énergie que les CPU. Elles sont indispensables aux superordinateurs IA, qui sinon dépasseraient les limites des réseaux électriques actuels. »
« Avec sa nouvelle série GPU MI300, AMD introduit la prise en charge matérielle native de la “sparsity” en compressant efficacement les matrices creuses avant le traitement, afin d’économiser de l’énergie et des cycles de calcul, et de réduire l’utilisation de la mémoire », explique de son côté Guillaume Caldin. Une optimisation essentielle qui identifie et compresse les données contenant beaucoup de zéros. Or, selon ThirdAI, plus de 99 % des opérations réalisées dans les LLM retournent un zéro : « Une telle optimisation évite de gâcher des cycles et de l’énergie pour des zéros sans importance. »
GPU vs NPU vs TPU
« Ce que vous allez voir émerger, espérons-le, ce sont de nouvelles puces qui ne sont pas des GPU, mais simplement des accélérateurs neuronaux et de deep learning », expliquait Yann Le Cun lors du dernier salon Viva Technology à Paris. Les NPU (neural processing units) sont des puces dédiées, spécialement conçues pour effectuer des tâches d’IA plus rapidement que des GPU et des CPU, tout en consommant moins d’énergie. Aujourd’hui, la très grande majorité des NPU, qu’elles soient destinées à l’embarqué, aux PC et smartphones, ou aux datacenters – les NPU Gaudi3 d’Intel par exemple –, se contentent d’accélérer les inférences. Il faut néanmoins distinguer deux catégories de NPU : celles préconfigurées pour des applications spécifiques et celles à usage général. Les premières tendent à se restreindre à une implémentation de modèles ou d’applications IA (reconnaissance de formes, etc.), alors que les secondes peuvent servir une grande variété d’algorithmes, de modèles et de cas d’usage. Les NPU joueront probablement à l’avenir un rôle majeur, notamment dans les infrastructures on-premise. Mais chaque constructeur poursuit ses propres pistes, et les contours des NPU de demain restent flous. Le marché des NPU pour datacenter se cherche encore. Et Intel brouille un peu plus les pistes : le successeur de Gaudi3, le futur Falcon Shore, combinera en effet les technologies NPU de Gaudi3 avec les technologies de son architecture GPU Xe.
Philippe Notton
CEO de SiPearl
« Il nous faut de grands centres de calcul et d’apprentissage européens, à l’image du Nabuchodonosor de Scaleway. Ne serait-ce que pour éviter de répéter ce qui s’est passé avec Internet. Il y a 20 ans, on a vu énormément de sociétés de logiciels SaaS faire du marketing digital où 80 % de leur budget, que ce soit des fonds levés ou du chiffre d’affaires standard, passaient dans de la publicité sur Google et dans la location de serveurs chez les Gafam avec des flux d’argent sortants quittant l’Europe pour les États-Unis. Nous avons besoin d’un maximum de systèmes de calcul en Europe pour que les flux monétaires IA restent ici. »
D’autres visions existent. Les TPU (tensor processing units) représentent ainsi un type très particulier de NPU. Développées par Google dès 2016 et désormais en génération 5, elles ont pour vocation d’accélérer l’exécution de modèles conçus au travers du framework TensorFlow. Elles se différencient des NPU par leur architecture « systolic array » qui intègre la mémoire à l’unité de traitement et se révèle de fait très puissante et peu coûteuse.
Des accélérateurs pour les clouds
Google n’est pas le seul acteur du cloud à avoir développé ses propres accélérateurs. Aujourd’hui, tous les grands clouds, y compris les européens comme OVHCloud, proposent des offres de location de clusters d’apprentissage IA à base de GPU. Mais les acteurs américains qui hébergent massivement les modèles LLM de Cohere, Anthropic ou OpenAI ont aussi rapidement ressenti le besoin de développer leurs propres accélérateurs IA. Non seulement pour réduire les coûts énergétiques, mais surtout pour ne plus être tributaires de Nvidia et de l’inflation des coûts des GPU, encore accentuée par la pénurie de composants.
AWS a donc développé ses propres processeurs spécialement optimisés pour des tâches dédiées. Ainsi, AWS Inferentia est un accélérateur conçu pour offrir à la fois de la performance et une réduction notable des coûts sur toutes les tâches d’inférence. AWS Trainium accélère, lui, l’entraînement des réseaux profonds. « De tels accélérateurs maison nous permettent de réduire les coûts tout en améliorant la scalabilité des infrastructures IA, explique Stephan Hadinger, directeur de la technologie chez AWS. Typiquement, les instances EC2 Trn1, à base de Trainium, accélèrent le temps d’apprentissage tout en offrant 50 % d’économie sur le coût d’une même formation réalisée sur des instances EC2 comparables. »
Dernier à entrer dans la danse, Microsoft a aussi développé ses propres accélérateurs et processeurs pour satisfaire ses besoins d’efficience IA. « À l’échelle à laquelle nous opérons, il est important pour nous d’optimiser et d’intégrer chaque couche de l’infrastructure afin de maximiser les performances, de diversifier notre chaîne d’approvisionnement, et de donner aux clients le choix de l’infrastructure », expliquait Scott Guthrie, le patron d’Azure, en annonçant les puces maison Maia 100 (NPU) et Cobalt 100 (CPU) lors de Microsoft Ignite en novembre dernier.
De nouvelles pistes pour les HPC et les entreprises ?
Une autre tendance se dessine, notamment dans l’univers des HPC, mais qui pourrait aussi dans un proche avenir s’imposer dans les entreprises et les infrastructures on-premise : celle des APU pour l’IA, des puces accélérées par la combinaison d’une CPU et d’une GPU calibrée pour l’IA. C’est le cas de la nouvelle APU MI300A d’AMD qui combine des cœurs x86 AMD Zen4, des cœurs AMD CDNA 3 et 128 Go de mémoire HBM3 pour offrir presque deux fois plus de performance par watt qu’un accélérateur MI250X.
Nvidia propose aussi une telle combinaison avec ses « Superchips Grace Hopper » qui combinent en un chip une CPU « Grace » à cœurs ARM Neoverse et une GPU de génération « Hopper ». Le nouveau superchip GH200 équipe les systèmes DGX GH200 de Nvidia qui animeront notamment le « booster module » de la première machine exaflopique européenne, le Jupiter.
La puce ne fait pas tout
En décembre dernier, AMD clamait haut et fort que son processeur graphique Instinct MI300X était 40 % plus rapide sur l’inférence du modèle LLama2 et 60 % sur celle du modèle Bloom 176B que les H100 de Nvidia. Certes, mais il n’utilisait pas les bibliothèques optimisées de Nvidia, avec lesquelles le H100 se révèle deux fois plus performant que le MI300X… L’anecdote illustre l’une des problématiques actuelles de cet univers de GPU, NPU et TPU : le hardware n’est rien sans le logiciel. En l’absence de standard, chaque GPU, chaque NPU, débarque avec ses propres bibliothèques de data science (Rapids chez Nvidia, Vitis AI chez AMD, etc.), ses propres bibliothèques d’algèbre linéaire, ses propres bibliothèques de deep learning (cuDNN, Dali chez Nvidia, zenDNN chez AMD… ), et ses propres frameworks applicatifs pour construire, personnaliser, déployer et exécuter des modèles d’IA (NeMo, Monai, Isaac chez Nvidia, ROCm chez AMD, Neuron chez AWS…).
Une standardisation via l’open source ?
Parallèlement, créateurs d’accélérateurs et hyperscalers ont bien compris qu’ils devaient s’acoquiner avec les développeurs et les créateurs de frameworks et de modèles pour s’assurer d’une prise en compte de leurs technologies et favoriser l’utilisation de leurs accélérateurs. Avec une attention toute particulière apportée aux communautés open source, modèle privilégié par de plus en plus de start-up et scale-up de l’IA, telles Mistral AI et Kyutai en France.
De son côté, Intel pousse une approche agnostique des accélérateurs (GPU, NPU, CPU) et des constructeurs : « Avec OpenVino et OneAPI, nous offrons choix et flexibilité. En supportant une large gamme de frameworks, nous permettons à nos clients de ne coder qu’une seule fois, tout en déployant sur diverses architectures CPU, GPU et Asic, et celles de la concurrence comme Nvidia Cuda et AMD HIP. Avec un impact sur la performance proche de zéro », assure Stephan Gillich.
« Nous défendons une approche basée sur des standards ouverts et les communautés open source. Nous construisons une pile logicielle unifiée, baptisée UAI, avec des fondations solides (ROCm, ZenDNN, Vitis AI) », se défend Guillaume Caldin tout en notant que « l’industrie commence à s’aligner sur des normes industrielles et des solutions ouvertes telles que Triton d’OpenAI qui est dans Torch 2.0… ». Ces efforts de normalisation n’en sont toutefois qu’à leurs débuts.
Diversité des accélérateurs, multiplicité des bibliothèques et frameworks, évolution hyper rapide des technologies, des modèles et des concepts IA sous-jacents, pénurie des composants… Encore aux prémices d’une quête vers l’uniformisation et la standardisation, l’IA est un domaine probablement encore trop immature pour voir les entreprises investir lourdement dans des infrastructures internes. Tout au moins en termes d’apprentissage de modèles, le cloud apparaît comme l’approche la moins risquée et la plus cohérente. Comme nous l’expliquait Orlando Appell, directeur des opérations de SAP France, dans une interview récente : « S’il fallait mettre l’intelligence artificielle dans un mode on-premise, il faudrait faire un projet d’upgrade d’infrastructures tous les trois mois. C’est complètement aberrant. »
Faut-il craquer pour les AI PC ?
Reconnaissance vocale, reconnaissance gestuelle avancée, authentification biométrique plus sûre, amélioration des flux de la caméra, amélioration de la captation des discussions, fonctions d’accessibilité pour atténuer un handicap au quotidien : ce sont quelques-uns des usages mis en avant par les constructeurs d’AI PC, nouvelle génération de PC introduite au CES 2024 et qui s’appuie sur des processeurs Intel Core Ultra et AMD Ryzen AI intégrant en standard des NPU (neural processing units). « Les AI PC équipés de Ryzen AI peuvent décharger les modèles IA sur la NPU, libérant ainsi la CPU pour réduire la consommation d’énergie tout en prolongeant la durée de vie de la batterie. Via notre SDK Ryzen AI, les développeurs ont accès à des modèles de reconnaissance de la parole comme Whisper, et aux LLM tels que OPT et Llama-2 afin de créer des interfaces vocales en langage naturel pour leurs applications, ou de débloquer d’autres fonctions de traitement du langage naturel telles que le résumé de documents et l’assistance aux courriels sans faire appel au cloud », explique Guillaume Caldin, business development executive chez AMD France. Reste que ces AI PC n’ont pas démontré qu’ils pouvaient faire des choses que nous n’avions pas déjà vues. Les cas d’usage qui feront la différence sont encore à inventer…
Les CPU font de la résistance
La pénurie de GPU sur le marché, la difficulté de trouver des instances IA disponibles sur les clouds et, plus encore, l’arrivée des SLM (des petits modèles tels Q8, Mistral 7B, Microsoft Phi-2, entraînés sur une seule langue ou un seul domaine avec un corpus informationnel trié sur le volet pour un maximum de pertinence) : autant de raisons qui, selon certains chercheurs, relancent l’intérêt pour l’utilisation des CPU, d’autant que ces dernières s’adaptent à la mouvance. « L’introduction d’AMX sur les Xeon Scalable de quatrième génération a constitué un énorme pas en avant : jusqu’à dix fois les performances de formation et d’inférence par rapport aux Xeon Gen 3, et jusqu’à dix fois l’efficience énergétique sur les workloads IA », explique Stephan Gillich.
De son côté, AWS nous a confirmé avoir intégré des NPU au cœur de ses nouveaux processeurs Graviton4 pour booster les inférences sur ses instances classiques CPU. Pour sa part, Microsoft n’a pas caché que son CPU Cobalt 100 avait été spécifiquement pensé pour ses très nombreux besoins d’inférences IA.
« Nous avons besoin d’alternatives aux GPU, et les CPU Intel fonctionnent très bien dans de nombreux scénarios d’inférences, si vous vous en donnez la peine et utilisez les outils appropriés », expliquait récemment Julien Simon, chief evangelist IA chez Hugging Face.
L’IA on-premise, pourquoi pas…
Latence, confidentialité, conformité, sécurité, souveraineté, sans oublier le mode contractuel par abonnement : on connaît les inconvénients du cloud. L’arrivée des « petits LLM » (ou SLM) optimisés pour des domaines ciblés, éclaire d’un nouveau jour la possibilité de disposer de ses propres infrastructures d’IA. Nvidia peaufine sa plateforme NeMo et d’autres plateformes dédiées qui servent notamment de fondation à l’offre Private AI de VMware. AMD construit une plateforme UAI (Unified AI) sur ses propres technologies. La start-up C3 propose une plateforme d’IA générative de haut niveau pour l’entreprise. Enfin, Nutanix a lancé fin 2023 sa plateforme « GPT-in-a-Box », une infrastructure hyperconvergée déjà totalement configurée et optimisée (au niveau matériel comme au niveau des frameworks et runtimes) pour l’IA que l’on peut déployer en un clin d’œil dans son datacenter ou en mode edge computing.
À LIRE AUSSI :
