

Data / IA
Découvrez comment Hugging Face a développé un Github de l’IA
Par Alain Clapaud, publié le 06 mars 2023
Au-delà du partage de modèles d’IA et de datasets, la start-up Hugging Face qui se qualifie de « Home of Machine Learning », propose aux data scientists des services pour l’entraînement et l’exécution de leurs modèles. Un Github de l’IA…
Créée à Brooklyn en 2016 par Clément Delangue, Julien Chaumond et Thomas Wolf, Hugging Face était alors une start-up vouée à créer et publier sur Github des modèles de machine learning en open source, essentiellement dans le traitement du langage naturel (NLP). En 2018, le développement de la start-up va s’accélérer : les équipes de Google AI publient Bert NLP, un de leurs modèles, qui impressionne alors par ses capacités. Celui-ci a été développé sur le framework d’IA Google Tensorflow et les trois compères se lancent dans son portage sur PyTorch, un framework open source qu’ils jugent plus ouvert. Julien Chaumond retrace le succès rencontré par cette démarche : « C’est une initiative qui a immédiatement séduit la communauté. En quelques mois, l’activité sur notre Github s’est envolée. Nous avons ouvert le projet aux contributeurs externes et beaucoup de gens ont collaboré afin d’améliorer cette librairie. Celle-ci existe toujours sous le nom de Transformers. » L’intérêt soulevé auprès des data scientists va pousser les fondateurs de Hugging Face à s’orienter vers la création d’un site pour fédérer cette communauté ML (pour machine learning) de plus en plus étendue.
À LIRE AUSSI :

Hugging Face : un « Github » pour télécharger des modèles de ML
Ainsi, depuis deux ans, Hugging Face s’est inspiré de Github pour proposer une plateforme où les data scientists peuvent télécharger des modèles de machine learning, des datasets ainsi que des Spaces, des espaces où le concepteur d’un modèle peut le mettre en démonstration sans avoir à coder une interface web. Le business model de Hugging Face est proche de celui d’un Github, avec un accès gratuit pour les contributeurs à titre personnel et des abonnements payants pour les entreprises qui souhaitent déployer des référentiels privés. Néanmoins, ses fondateurs veulent mettre l’accent sur la mise à disposition de puissance de calcul optimisée pour le machine learning. Pour Julien Chaumond, si déployer une webapp sur le cloud public n’est pas très complexe, dans le domaine du machine learning, le temps de calcul coûte très cher et met en œuvre des GPU ou des TPU dont il faut maîtriser les spécificités. Hugging Face propose des conteneurs optimisés pour s’exécuter dans le cloud et des services d’exécution depuis son site. « Nous commercialisons certains services de calcul en mode SaaS comme l’entraînement des modèles avec notre fonction AutoTrain, ou encore des API d’inférence qui permettent d’utiliser un modèle entraîné sans avoir à déployer soi-même le modèle sur une infrastructure. » La start-up a noué un accord de partage de revenu avec AWS pour porter ces offres.

Outre les référenciels de modèles de machine learning et les datasets, HuggingFace a mis en place la fonction Spaces qui permet à un data scientist de créer une démonstration en ligne de son modèle sans avoir à coder autrement qu’en Python.
150.000 modèles déjà proposés pour ce Github de l’IA
Hugging Face héberge actuellement 50 000 modèles publics dans tous les domaines et 100 000 privés. Les fondateurs estiment que la communauté des data scientists représente environ deux millions de personnes dans le monde (à comparer aux 50 à 100 millions de développeurs), une niche déjà importante et qui devrait croître très rapidement ces cinq prochaines années, espèrent les fondateurs. Parmi les organisations qui ont publié le plus de modèles sur leur site figurent Google AI, Facebook AI ou encore Microsoft. Une belle reconnaissance pour ce Github de l’IA de la Start-Up Hugging Face.
LE PITCH
JULIEN CHAUMOND, Cofondateur en charge des opérations de Hugging Face : « Nous sommes persuadés que le machine learning va constituer une révolution dans les prochaines années, mais réfutons l’idée que seules les plus grosses boîtes tech peuvent être en pointe dans ce domaine. »
L’ENTREPRISE
CRÉATION : 2016
SIÈGE : New York
ORIGINE : Modèles de machine learning
EFFECTIF : 140 collaborateurs
FINANCEMENT : Lux Capital, Sequoia Capital, Thirty Five Ventures
RÉFÉRENCES : Intel, Pfizer, Roche, Renault, AWS, Microsoft