L'OSI donne enfin une définition officielle de ce qu'est une IA open source

Data / IA

LLama et Mixtral ne sont pas de vraies IA open-source selon l’OSI

Par Laurent Delattre, publié le 30 octobre 2024

En divulguant sa première définition 1.0 officielle de ce qu’est une IA open source, l’OSI cherche à éliminer les ambiguïtés et à promouvoir un véritable accès libre aux technologies d’intelligence artificielle. Mais sa définition remet en cause l’étiquette “open-source” revendiquée par des acteurs comme Meta et Mistral.

Depuis maintenant 25 ans, l’Open Source Initiative (OSI) fait autorité en matière de définition des standards open-source. La publication, cette semaine, de sa première définition officielle de ce qui constitue une « intelligence artificielle véritablement open-source » vient éclaircir les débats alors que les licences Apache et MIT se révèlent inadaptées à tracer les frontières d’une IA open source. Cette annonce, qui intervient après deux années de consultation avec des experts du monde entier, remet ainsi en question les pratiques de géants technologiques comme Meta ou Google mais aussi de startup qui prône une approche open-source comme Mistral. Explications…

Des critères stricts qui excluent les grands modèles actuels

Selon l’OSI, pour qu’une IA soit considérée comme authentiquement open-source, elle doit satisfaire quatre libertés fondamentales : l’utilisation sans restriction, l’étude du fonctionnement, la modification pour tout usage, et le partage libre des modifications.

Plus concrètement, les développeurs doivent fournir :

– L’accès aux détails des données d’entraînement permettant de comprendre et reproduire le modèle

– Le code source complet utilisé pour la construction et l’exécution de l’IA

– Les paramètres et poids issus de l’entraînement

Jusqu’ici, la plupart des modèles qualifiés d’open source se contentaient des deux derniers points voire simplement du dernier selon une pratique souvent désignée de « open weight ».

Avec la publication de l’OSI, la nouvelle liste officielle des IA open source est désormais des plus limitée : Pythia (Eleuther AI), OLMo (AI2), Amber et CrystalCoder (LLM360) ainsi que l’ancestral T5 (Google). D’autres modèles pourraient rejoindre rapidement cette courte liste à condition d’amender leurs termes légaux et licences : BLOOM (BigScience), Starcoder2 (BigCode), Falcon (TII).

Dit autrement, les exigences de l’OSI placent donc des modèles populaires comme Llama 2 de Meta ou Mixtral de Mistral hors du périmètre “open-source”. En effet, Llama impose des restrictions d’utilisation commerciale pour les plateformes dépassant 700 millions d’utilisateurs, tandis que Mistral interdit certains usages commerciaux. Et la liste des exclus est loin de se limiter à ces deux modèles populaires. GrokAI, l’IA de la startup d’un Elon Musk en conflit avec OpenAI parce que cette dernière ne publie plus rien en open source, est également non conforme à la définition de l’OSI. Il en va de même des populaires modèles Phi-3 de Microsoft et très probablement aussi des derniers modèles Granite 3.0 d’IBM.
Car, dans tous les cas, un élément crucial exclut ces modèles de la définition OSI : aucun d’eux ne divulgue ses données d’entraînement.

Une bataille autour des données d’entraînement

En effet, au fil des mois, les débats sur une définition « open source » de l’IA se sont focalisés sur la problématique des données d’entraînement. Faut-il que ces données soient impérativement elles-mêmes du domaine de l’open source (et donc estampillés « Creative Common » ou similaires) ou suffit-il de dévoiler les sources des données qui ont servi à l’entraînement, ces dernières pouvant être acquises sous licences ou fermées ?

En la matière, l’OSI a tranché – dans cette version 1.0 – pour la seconde option. Une IA open source peut exploiter pour son entraînement des données qui ne le sont pas tant que la source des données est, elle, bien précisée.

Sans surprise, Meta, par la voix de sa porte-parole Faith Eischen, conteste la définition OSI : « Nous sommes d’accord avec notre partenaire OSI sur de nombreux points, mais nous ne sommes pas d’accord avec leur nouvelle définition. Selon nous, il ne peut exister de définition unique de l’IA open-source, et la définir est un défi car les définitions précédentes ne couvrent pas les complexités des modèles d’IA actuels. »
Et Meta d’invoquer – comme OpenAI, par ailleurs – des préoccupations de sécurité pour justifier ses restrictions.

Stefano Maffulli, directeur exécutif de l’OSI, y voit plutôt une répétition de l’histoire : « Meta utilise les mêmes arguments que Microsoft dans les années 1990 quand il voyait l’open-source comme une menace pour son modèle économique. »
Pour lui, la réticence à partager les données d’entraînement relève davantage de la protection d’un avantage concurrentiel que de considérations de sécurité.

Pour l’instant, et en attente de jugement en la matière, la position de l’OSI est renforcée par le contexte juridique actuel, où de nombreuses entreprises d’IA font face à des poursuites pour violation de droits d’auteur dans leurs données d’entraînement. La transparence exigée par l’OSI non seulement remet ces pratiques contestées au cœur des débats, mais elle permet désormais de clairement définir qui sont et ne font pas partie des IA open source. Quitte à ce que toutes les IA ne relevant pas de la définition de l’OSI adoptent au final l’étiquette non officielle d’ « IA open weight ».

Une définition appelée à évoluer

« Arriver à la version 1.0 de l’OSAID aujourd’hui a été un parcours difficile, rempli de nouveaux défis pour la communauté OSI » explique Stefano Maffulli. « Malgré ce processus délicat, marqué par des opinions divergentes et des frontières techniques inexplorées – et parfois même des échanges houleux – les résultats sont alignés avec les attentes fixées au début de ce processus de deux ans. C’est un point de départ pour un effort continu d’engagement avec les communautés afin d’améliorer la définition au fil du temps, alors que nous développons avec la communauté Open Source élargie les connaissances nécessaires pour comprendre et appliquer l’OSAID v1.0. »

Si cette version 1.0 de la définition est appelée à faire autorité à court terme et redéfinir le paysage des IA open source, l’OSI reconnaît néanmoins qu’elle devra évoluer. Un comité a été établi pour surveiller son application et proposer des amendements. Car des questions restent en suspens, notamment sur la gestion des droits d’auteur des modèles eux-mêmes et sur l’accès aux données d’entraînement propriétaires.

Cette initiative marque néanmoins un tournant décisif dans l’écosystème de l’IA, posant les bases d’une plus grande transparence et d’une véritable démocratisation des technologies d’intelligence artificielle.

67 propositions pour cesser de brader la souveraineté publique

Thierry Derouet

15 Juil
Achats publics : quand l’évaluation fournisseurs devient une affaire d’État !

La rédaction

15 Juil
Cyberguerre : le nouveau champ de bataille numérique

La rédaction

14 Juil
Litiges informatiques, l’embarras du choix

François Jeanne

14 Juil
Cybersécurité : Cloudflare veut faire la part belle à ses partenaires

Brand Content

14 Juil
Nicolas Beaunieux (Manitou Group) : « L’IT est un des moteurs de notre transformation d’industriel »

Laurent Delattre

11 Juil
Au-delà des cas d’usage : comment l’IA peut transformer les opérations et la stratégie d’entreprise

La rédaction

11 Juil
Quand le juridique envahit le champ d’action de la DSI

Mourad Krim

11 Juil
Elon Musk lance Grok 4 et une offre à 300$ par mois

Laurent Delattre

10 Juil
Ransomware : les nouvelles tendances

La rédaction

10 Juil

LLama et Mixtral ne sont pas de vraies IA open-source selon l’OSI

Des critères stricts qui excluent les grands modèles actuels

Une bataille autour des données d’entraînement

Une définition appelée à évoluer

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

67 propositions pour cesser de brader la souveraineté publique

Achats publics : quand l’évaluation fournisseurs devient une affaire d’État !

Cyberguerre : le nouveau champ de bataille numérique

Litiges informatiques, l’embarras du choix

Cybersécurité : Cloudflare veut faire la part belle à ses partenaires

Nicolas Beaunieux (Manitou Group) : « L’IT est un des moteurs de notre transformation d’industriel »

Au-delà des cas d’usage : comment l’IA peut transformer les opérations et la stratégie d’entreprise

Quand le juridique envahit le champ d’action de la DSI

Elon Musk lance Grok 4 et une offre à 300$ par mois

Ransomware : les nouvelles tendances

LLama et Mixtral ne sont pas de vraies IA open-source selon l’OSI

Des critères stricts qui excluent les grands modèles actuels

Une bataille autour des données d’entraînement

Une définition appelée à évoluer

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

67 propositions pour cesser de brader la souveraineté publique

Achats publics : quand l’évaluation fournisseurs devient une affaire d’État !

Cyberguerre : le nouveau champ de bataille numérique

Litiges informatiques, l’embarras du choix

Cybersécurité : Cloudflare veut faire la part belle à ses partenaires

Nicolas Beaunieux (Manitou Group) : « L’IT est un des moteurs de notre transformation d’industriel »

Au-delà des cas d’usage : comment l’IA peut transformer les opérations et la stratégie d’entreprise

Quand le juridique envahit le champ d’action de la DSI

Elon Musk lance Grok 4 et une offre à 300$ par mois

Ransomware : les nouvelles tendances

Abonnement GRATUIT

Accès à Albert (ChatGPT for IT)

Contenus réservés à la communauté d’IT for Business

La newsletter hebdo d’IT for Business

Des invitations privilégiées à nos événements