IA et Données synthétiques, une combinaison risquée sur le long terme

Data / IA

Peut-on entraîner une IA sur des données synthétiques ?

Par Charlotte Mauger, publié le 20 décembre 2023

Entraîner un modèle d’IA génératif sur des données synthétiques dégrade a priori la qualité et la diversité des sorties. Mais dans des conditions raisonnables, ces données artificielles pourraient permettre de gonfler les bases d’entraînement.

La donnée synthétique est attrayante : elle est rapide, facile à produire et peu coûteuse. Pour les modèles génératifs, qui nécessitent des bases de données gigantesques pour leur entraînement, elle semble même un moyen de pallier le manque de données d’origine humaine. Pour les autres, elle apparaît aussi comme un moyen de compléter une base de données, notamment sur les catégories peu fréquentes.

Des chercheurs, dont les travaux sont relatés dans deux études récentes – encore en prépublication –, ont analysé à la fois de manière théorique et empirique, les conséquences de l’introduction de quantités plus ou moins importantes de données synthétiques dans le corpus d’apprentissage d’un modèle génératif de textes ou d’images. Pour cela, ils ont entraîné plusieurs fois de suite un système sur des données qu’il a lui-même produites.

« Nous avons remarqué que si le modèle est suffisamment bon et que la quantité de données générées n’est pas trop importante par rapport aux réelles, alors le modèle ne dégénère pas », explique Quentin Bertrand, chercheur au Mila et à l’Université de Montréal, co-auteur de l’une de ces études. « Dans le cas d’un apprentissage, à chaque étape, sur un mélange de données nouvelles réelles et de données générées pas trop importantes, nous avons même remarqué une amélioration des performances », assure Sina Alemohammad, chercheur à l’Université de Rice (États-Unis) et co-auteur de l’autre étude.

Des données générées en faible proportion, de bonne qualité et accompagnées de données humaines nouvelles : en respectant ces trois conditions, une entreprise pourrait profiter des données synthétiques pour compléter un jeu de données. « Si on dispose d’un modèle de reformulation suffisamment fiable, on peut l’utiliser pour augmenter la proportion de catégories sous-représentées », explique Damien Sileo, chercheur à l’Inria à Lille. DSI de Bpifrance, Lionel Chaine approuve : « On n’y est pas encore, mais on envisage d’utiliser nos grands modèles de langage – qu’on maîtrise – pour augmenter nos bases de données. »

À LIRE AUSSI :

Data / IA

Et si l’IA provoquait une hallucination collective ?

Thierry Derouet

6 Déc

A contrario, insistent les chercheurs, ne pas respecter ces trois conditions expose au risque de voir les données synthétiques causer l’effondrement du modèle, la dégradation de la qualité de ses sorties. Dans une troisième prépublication, Ilia Shumailov et ses collègues parlent même de « maladie de la récursion ». « Si on entraîne plusieurs fois un modèle sur des données générées, on s’éloigne peu à peu de la distribution de données originelle », décrit-il. Et moins le modèle est bon, plus les sorties sont de mauvaise qualité, et celles issues des entraînements suivants encore davantage. Par exemple, des artefacts apparaissent et s’amplifient sur les images générées.

Alimenté de manière récursive, le modèle génératif amplifie progressivement des artefacts sur les images produites.

« ChatGPT est une sorte de résumé des informations d’internet. S’il résume l’information, c’est qu’il en perd », image Sina Alemohammad. Par définition, les données les moins représentées dans le corpus d’apprentissage sont les moins probables parmi les sorties. Alors, « après plusieurs entraînements, les événements les moins probables disparaissent des sorties », prévient Ilia Shumailov. Ce qui peut poser problème notamment dans le cas de minorités : « La donnée générée peut améliorer la représentation des classes dominantes, mais pas des minorités qui sont “improbables” pour le système… », met-il en garde.

Le problème est qu’aujourd’hui, la part de données synthétiques ne cesse de croître sur internet. Gartner estime même qu’elle pourrait dépasser en proportion la donnée « humaine » d’ici 2030. Les contenus artificiels ont déjà « contaminé » certaines des bases de données utiles à l’entraînement des modèles génératifs d’images. Sans parler des modèles génératifs à venir : « La crainte est là : qu’il n’y ait plus d’accès à des jeux de données propres et que cela bloque la progression des modèles », prévient Quentin Bertrand.

Et pour le reste des données, celles dont l’origine humaine ou synthétique est contrôlée, il est délicat, pour l’heure, de quantifier la part de données générées à ne pas dépasser pour l’apprentissage. « Dans notre cas, on a remarqué qu’empiriquement elles ne doivent pas dépasser 10 % », explique Quentin Bertrand.

D’un modèle et d’un jeu de données à l’autre, la quantité tolérée est différente : dans l’équipe de Sina Alemohammad, les deux types de données étaient en égales proportions. D’autres études devraient suivre.

À LIRE AUSSI :

Data / IA

Laurent Daudet (LightOn) : « Il ne faut pas étouffer l’innovation en imposant à l’IA des contraintes juridiques insupportables »

Thierry Derouet

15 Déc

À LIRE AUSSI :

L'IA générative nous rend plus créatifs, mais elle doit aussi créer de la valeur pour l'entreprise

Data / IA

Comment libérer le potentiel de création de valeur de l’IA générative

La rédaction

5 Déc

IA sur étagère : les promesses à venir et à tenir des progiciels

Thierry Derouet

15 Août
2035 : de l’IA au quantique — Ce que nous réserve la prochaine décennie

La rédaction

15 Août
La DSI place forte de l’IA, comme une évidence ?

François Jeanne

14 Août
Sans juniors, pas de seniors : pourquoi l’embargo sur les diplômés est un pari dangereux 

Thierry Derouet

14 Août
2035 : Comment le service public sera-t-il plus performant, plus proche et plus Souverain ?

La rédaction

14 Août
AOL raccroche la tonalité : quand l’icône du « You’ve got mail » rejoint l’histoire

Thierry Derouet

13 Août
Défense Angels fait le choix de la souveraineté

Xavier Biseul

13 Août
Quantique et simulation : une synergie technologique au cœur de l’ingénierie de demain

La rédaction

13 Août
Payer pour exporter : Washington rouvre la Chine aux puces d’IA… contre 15 %

Thierry Derouet

12 Août
« 51 % des entreprises cumulent entre 100 et 300 applications SaaS »

Laurent Delattre

12 Août

Peut-on entraîner une IA sur des données synthétiques ?

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

IA sur étagère : les promesses à venir et à tenir des progiciels

2035 : de l’IA au quantique — Ce que nous réserve la prochaine décennie

La DSI place forte de l’IA, comme une évidence ?

Sans juniors, pas de seniors : pourquoi l’embargo sur les diplômés est un pari dangereux

2035 : Comment le service public sera-t-il plus performant, plus proche et plus Souverain ?

AOL raccroche la tonalité : quand l’icône du « You’ve got mail » rejoint l’histoire

Défense Angels fait le choix de la souveraineté

Quantique et simulation : une synergie technologique au cœur de l’ingénierie de demain

Payer pour exporter : Washington rouvre la Chine aux puces d’IA… contre 15 %

« 51 % des entreprises cumulent entre 100 et 300 applications SaaS »

Peut-on entraîner une IA sur des données synthétiques ?

Abonnez-vous à la newsletter hebdo d'IT for Business !

Nous vous envoyons un e-mail de validation !

Dans l'actualité

IA sur étagère : les promesses à venir et à tenir des progiciels

2035 : de l’IA au quantique — Ce que nous réserve la prochaine décennie

La DSI place forte de l’IA, comme une évidence ?

Sans juniors, pas de seniors : pourquoi l’embargo sur les diplômés est un pari dangereux

2035 : Comment le service public sera-t-il plus performant, plus proche et plus Souverain ?

AOL raccroche la tonalité : quand l’icône du « You’ve got mail » rejoint l’histoire

Défense Angels fait le choix de la souveraineté

Quantique et simulation : une synergie technologique au cœur de l’ingénierie de demain

Payer pour exporter : Washington rouvre la Chine aux puces d’IA… contre 15 %

« 51 % des entreprises cumulent entre 100 et 300 applications SaaS »

Abonnement GRATUIT

Accès à Albert (ChatGPT for IT)

Contenus réservés à la communauté d’IT for Business

La newsletter hebdo d’IT for Business

Des invitations privilégiées à nos événements

Sans juniors, pas de seniors : pourquoi l’embargo sur les diplômés est un pari dangereux