Les ordinateurs exaflopiques verront peut-être le jour d’ici la fin de l’année. En attendant, le nouveau classement TOP500 dévoile une autre réalité : les HPC naissent aussi désormais dans le cloud !

Deux fois par an, l’organisation TOP500 établit un classement des 500 ordinateurs les plus puissants de la planète. Actuellement, le japon domine largement le classement avec son Fugaku, un monstre créé par Fujitsu pour l’institut de recherche Riken. Avec ses 7 630 848 cœurs, il affiche une puissance de 442 PetaFLOP/s (soit 442 milliards de milliards d’opérations en virgule flottante par seconde !).
En comparaison, le plus puissant des HPC américains, l’IBM SUMMIT deuxième du classement, se révèle trois fois moins performant avec ses 148 PetaFLOP/s (issus de 2 414 592 cœurs de calculs).

Mais ces géants sont désormais menacés par une autre vision du supercalculateur. De plus en plus de clients s’appuient désormais sur le cloud pour instancier de véritables puissances de supercalculateurs et notamment répondre à leur besoin temporaire d’apprentissage d’IA.

Azure a été l’un des premiers acteurs à évoquer les thématiques de cloud HPC. En mai dernier, l’éditeur annonçait la disponibilité générale d’une offre en preview depuis de très longs mois.
Azure a ainsi construit au moins 4 clusters HPC (créés à partir d’instances de calcul Azure ND v4 mixant CPU AMD Epyc 48 cœurs et GPU NVidia A100). On ne connaît pas la puissance réelle et l’étendue de chacun de ces quatre clusters (dont un est en Europe, le Pioneer-WEU). En effet, pour les besoins des benchmarks du TOP500, Microsoft n’a alloué qu’une portion des capacités réellement installées. Même ainsi, Pioneer-WEU entre directement dans le TOP 10 des HPC européens (en utilisant 164 instances ND v4). Les quatre HPC « Azure » occupent respectivement les 26 ème, 27 ème, 28 ème et 29 ème positions du classement TOP500 !
Dans un univers cloud ultra-concurrentiel, l’éditeur refuse pour l’instant de dévoiler les capacités réelles des clusters : « Nous ne divulguons pas l’importance de ce projet, mais nous avons choisi de n’utiliser qu’une portion de chaque cluster pour les benchmarks Top500, en partie pour continuer de mieux répondre à l’incroyable demande d’accès de nos clients » explique Ian Finder, directeur de programme principal du groupe Azur HPC.
Chacun des HPC, à base d’instances « Azure ND v4 », dans leur « portion » testée a été mesuré à 16,6 PetaFLOP/s avec 157 440 cœurs de calcul.
Au-delà des instances ND, Azure propose également des tenants Cray XC ou CS.
Pour en savoir plus sur Azure et les HPC : Calcul haute performance – HPC | Microsoft Azure

AWS figure lui aussi dans le TOP 500. La société américaine de recherches géospatiales Descartes Labs s’appuie en effet sur les infrastructures du leader du cloud pour héberger un HPC flashé à 9,96 PetaFLOP/s résultant de l’agrégation d’instances « Amazon EC2 R5 xlarge » à base de Xeon Platinum 24 cœurs. L’ordinateur ainsi formé comporte 172 692 cœurs, offre une performance de 9,9 PetaFLOP/S et s’affiche à la 40ème place du TOP500.
Les capacités HPC d’AWS sont également utilisées par AstraZenexa (analyse génomique à des fins médicamenteuses), Maxar (prévision météorologique), et Flying Whales (simulations CFD).
Pour en savoir plus sur AWS et les HPC : AWS | Calcul Haute Performance – HPC Cloud Computing

Enfin, Google bien que n’apparaissant pas encore dans le TOP500 s’intéresse également au marché du calcul haute-performance. Elle vient notamment de lancer en Preview ses nouvelles Cloud TPU  VMs, des instances VMs s’exécutant sur des hardwares dotés de processeurs TPU v2 ou v4. Ces VMs permettent de plus facilement créer et tester des workloads destinés à une exécution sur les « Cloud TPU Pods », des clusters à base de Tensor Processing Unit donc plus centrés sur l’exécution d’algorithmes d’apprentissage de réseaux de neurones. Selon Google, les nouveaux Pods v3 affichent 100 PetaFLOP/s mais en 16 bits (alors que les mesures TOP500 sont réalisées sur 32 bits).
Par ailleurs, GCP propose aussi aux entreprises d’instancier des machines à base de Xeon et de GPU NVidia et des « HPC VM Images » à orchestrer avec des outils comme Omnibond CloudyCluster pour assembler un HPC digne de ce nom.
Pour en savoir plus : Cloud TPU  |  Google Cloud

Alors que l’Europe, avec son programme EuroHPC, a placé – en un an – 4 nouveaux HPC dans le TOP500 et en placera prochainement 4 autres (Lumi, MareNostrum 5, Leonardo et Deucalion), bien des entreprises envisagent désormais d’aller chercher la haute performance « à la demande » dans le cloud grâce aux capacités pharaoniques désormais disponibles sur les infrastructures des hyperscalers. Dans un proche avenir, on devrait donc voir se multiplier les HPC Azure, AWS ou Google dans le palmarès TOP500.org.