L'OSI donne enfin une définition officielle de ce qu'est une IA open source

Data / IA

LLama et Mixtral ne sont pas de vraies IA open-source selon l’OSI

Par Laurent Delattre, publié le 30 octobre 2024

En divulguant sa première définition 1.0 officielle de ce qu’est une IA open source, l’OSI cherche à éliminer les ambiguïtés et à promouvoir un véritable accès libre aux technologies d’intelligence artificielle. Mais sa définition remet en cause l’étiquette “open-source” revendiquée par des acteurs comme Meta et Mistral.

Depuis maintenant 25 ans, l’Open Source Initiative (OSI) fait autorité en matière de définition des standards open-source. La publication, cette semaine, de sa première définition officielle de ce qui constitue une « intelligence artificielle véritablement open-source » vient éclaircir les débats alors que les licences Apache et MIT se révèlent inadaptées à tracer les frontières d’une IA open source. Cette annonce, qui intervient après deux années de consultation avec des experts du monde entier, remet ainsi en question les pratiques de géants technologiques comme Meta ou Google mais aussi de startup qui prône une approche open-source comme Mistral. Explications…

Des critères stricts qui excluent les grands modèles actuels

Selon l’OSI, pour qu’une IA soit considérée comme authentiquement open-source, elle doit satisfaire quatre libertés fondamentales : l’utilisation sans restriction, l’étude du fonctionnement, la modification pour tout usage, et le partage libre des modifications.

Plus concrètement, les développeurs doivent fournir :

L’accès aux détails des données d’entraînement permettant de comprendre et reproduire le modèle

Le code source complet utilisé pour la construction et l’exécution de l’IA

Les paramètres et poids issus de l’entraînement

Jusqu’ici, la plupart des modèles qualifiés d’open source se contentaient des deux derniers points voire simplement du dernier selon une pratique souvent désignée de « open weight ».

Avec la publication de l’OSI, la nouvelle liste officielle des IA open source est désormais des plus limitée : Pythia (Eleuther AI), OLMo (AI2), Amber et CrystalCoder (LLM360) ainsi que l’ancestral T5 (Google). D’autres modèles pourraient rejoindre rapidement cette courte liste à condition d’amender leurs termes légaux et licences : BLOOM (BigScience), Starcoder2 (BigCode), Falcon (TII).

Dit autrement, les exigences de l’OSI placent donc des modèles populaires comme Llama 2 de Meta ou Mixtral de Mistral hors du périmètre “open-source”. En effet, Llama impose des restrictions d’utilisation commerciale pour les plateformes dépassant 700 millions d’utilisateurs, tandis que Mistral interdit certains usages commerciaux. Et la liste des exclus est loin de se limiter à ces deux modèles populaires. GrokAI, l’IA de la startup d’un Elon Musk en conflit avec OpenAI parce que cette dernière ne publie plus rien en open source, est également non conforme à la définition de l’OSI. Il en va de même des populaires modèles Phi-3 de Microsoft et très probablement aussi des derniers modèles Granite 3.0 d’IBM.
Car, dans tous les cas, un élément crucial exclut ces modèles de la définition OSI : aucun d’eux ne divulgue ses données d’entraînement.

Une bataille autour des données d’entraînement

En effet, au fil des mois, les débats sur une définition « open source » de l’IA se sont focalisés sur la problématique des données d’entraînement. Faut-il que ces données soient impérativement elles-mêmes du domaine de l’open source (et donc estampillés « Creative Common » ou similaires) ou suffit-il de dévoiler les sources des données qui ont servi à l’entraînement, ces dernières pouvant être acquises sous licences ou fermées ?

En la matière, l’OSI a tranché – dans cette version 1.0 – pour la seconde option. Une IA open source peut exploiter pour son entraînement des données qui ne le sont pas tant que la source des données est, elle, bien précisée.

Sans surprise, Meta, par la voix de sa porte-parole Faith Eischen, conteste la définition OSI : « Nous sommes d’accord avec notre partenaire OSI sur de nombreux points, mais nous ne sommes pas d’accord avec leur nouvelle définition. Selon nous, il ne peut exister de définition unique de l’IA open-source, et la définir est un défi car les définitions précédentes ne couvrent pas les complexités des modèles d’IA actuels. »
Et Meta d’invoquer – comme OpenAI, par ailleurs  – des préoccupations de sécurité pour justifier ses restrictions.

Stefano Maffulli, directeur exécutif de l’OSI, y voit plutôt une répétition de l’histoire : « Meta utilise les mêmes arguments que Microsoft dans les années 1990 quand il voyait l’open-source comme une menace pour son modèle économique. »
Pour lui, la réticence à partager les données d’entraînement relève davantage de la protection d’un avantage concurrentiel que de considérations de sécurité.

Pour l’instant, et en attente de jugement en la matière, la position de l’OSI est renforcée par le contexte juridique actuel, où de nombreuses entreprises d’IA font face à des poursuites pour violation de droits d’auteur dans leurs données d’entraînement. La transparence exigée par l’OSI non seulement remet ces pratiques contestées au cœur des débats, mais elle permet désormais de clairement définir qui sont et ne font pas partie des IA open source. Quitte à ce que toutes les IA ne relevant pas de la définition de l’OSI adoptent au final l’étiquette non officielle d’ « IA open weight ».

Une définition appelée à évoluer

« Arriver à la version 1.0 de l’OSAID aujourd’hui a été un parcours difficile, rempli de nouveaux défis pour la communauté OSI » explique Stefano Maffulli. « Malgré ce processus délicat, marqué par des opinions divergentes et des frontières techniques inexplorées – et parfois même des échanges houleux – les résultats sont alignés avec les attentes fixées au début de ce processus de deux ans. C’est un point de départ pour un effort continu d’engagement avec les communautés afin d’améliorer la définition au fil du temps, alors que nous développons avec la communauté Open Source élargie les connaissances nécessaires pour comprendre et appliquer l’OSAID v1.0. »

Si cette version 1.0 de la définition est appelée à faire autorité à court terme et redéfinir le paysage des IA open source, l’OSI reconnaît néanmoins qu’elle devra évoluer. Un comité a été établi pour surveiller son application et proposer des amendements. Car des questions restent en suspens, notamment sur la gestion des droits d’auteur des modèles eux-mêmes et sur l’accès aux données d’entraînement propriétaires.

Cette initiative marque néanmoins un tournant décisif dans l’écosystème de l’IA, posant les bases d’une plus grande transparence et d’une véritable démocratisation des technologies d’intelligence artificielle.


Dans l'actualité

Verified by MonsterInsights