Les données synthétiques, ou synthetic data, sont des données générées artificiellement au lieu d’être collectées. Le concept est ancien mais a été remis au goût du jour avec la popularisation des algorithmes génératifs, les besoins d’anonymisation des informations et l’entraînement de nouveaux modèles de Deep Learning et d’IA,.

Par Rev Lebaredian, VP Omniverse & Simulation Technology chez NVIDIA

Du dépistage avancé du cancer à la suggestion d’un nouveau film, les data scientists ont besoin d’ensembles de données importants et diversifiés pour entraîner les modèles d’intelligence artificielle. Souvent protégées pour des raisons de confidentialité, les données authentiques peuvent être difficiles à trouver, coûteuses à obtenir, et manquer de la diversité nécessaire.

Les données synthétiques – des simulations générées par ordinateur qui garantissent un approvisionnement abondant en données d’entraînement diversifiées et anonymes – peuvent cependant combler ce déficit et offrir des modèles d’IA plus performants et plus robustes.

Des données « artificielles » complémentaires aux données du monde réel

Une fois les données facilement disponibles obtenues, les développeurs doivent chercher des compléments pour améliorer leurs modèles. Les données synthétiques sont des informations que les simulations informatiques ou les algorithmes génèrent comme alternative aux données du monde réel pour combler l’écart entre les besoins du modèle et la disponibilité des données grâce par exemple à des simulations 3D proches du réel ou à la production de données issues de réseaux antagonistes génératifs. Ainsi, avant de se lancer dans le monde réel, une voiture autonome pourra être entrainée sur des milliers de kilomètres de routes virtuelles pour compléter son apprentissage.

Selon le cabinet d’analystes Gartner(*), « les données synthétiques sont en passe de passer du statut d’accessoire à celui de force principale de l’avenir de l’IA », et note que « les données synthétiques démocratisent le terrain de jeu en permettant aux petites organisations de créer des modèles d’IA sans beaucoup de données, résolvant ainsi efficacement leur problème de démarrage à froid. »

Les données synthétiques répondent aux besoins critiques de l’IA

Si l’IA est déjà omniprésente dans nos vies – à travers les soins de santé, le commerce de détail, le divertissement, les véhicules autonomes, les espaces et appareils intelligents -, utiliser l’IA comme un miroir numérique de la réalité est la prochaine étape de son évolution. Mais les variations dans un environnement particulier peuvent être innombrables, des nombreuses nuances et teintes de la couleur d’une chemise, à l’évolution de l’éclairage d’une pièce en fonction du mouvement du soleil.

Pour saisir la complexité des conditions, il est essentiel de disposer de divers ensembles de données synthétiques pour la modélisation de l’IA. Les données synthétiques peuvent être générées pour alimenter les jumeaux numériques en beaucoup moins de temps et d’argent qu’il n’en faut pour recueillir des données de sources primaires. Cela maximise l’accès à de grandes quantités de données diverses et présente l’avantage de ne pas poser de problèmes de confidentialité des données.

Puisque les données du monde réel peuvent être insuffisantes pour construire des modèles d’IA, il est nécessaire d’intégrer des fonctionnalités de randomisation pour, par exemple, faire varier de façon aléatoire la texture, les couleurs, l’éclairage et le placement dans les simulations de robotiques, ou de modifier la taille ou la langue d’un panneau de signalisation sur les plateformes de simulation destinées à tester les véhicules autonomes. Les variations de ces mondes numériques reflètent celles qui apparaissent dans la vie réelle, où l’inattendu et l’imprévisible se produisent régulièrement.

Le lien essentiel entre le graphisme et l’IA

Les données synthétiques peuvent contribuer à améliorer les mondes simulés en créant des environnements virtuels plus réalistes qui sont de véritables jumeaux numériques de la réalité. Par exemple, une voiture autonome doit être capable de réagir lorsque le soleil est bas dans le ciel, ce qui peut nuire à la visibilité.

Les données synthétiques ont ainsi ouvert la voie à une renaissance de l’infographie, la simulation de mondes en 3D étant désormais un élément clé de la formation des modèles d’IA.

Les différentes façons dont un individu peut apparaître dans un monde virtuel en 3D, avec des variations corporelles, des caractéristiques faciales et des comportements naturels, illustrent le véritable pouvoir des données synthétiques, capables de combler le fossé entre les mondes virtuel et réel grâce à la précision de paramètres allant des lois gravitationnelles aux actions corporelles en passant par la texture de la peau.

L’IA au service de sa propre évolution

Chaque vague d’innovation en matière d’IA s’appuie sur la précédente. Les possibilités offertes par les données synthétiques iront au-delà de leur utilisation dans les applications actuelles de l’IA pour s’étendre aux secteurs de l’agriculture, des véhicules autonomes, des soins de santé, de la robotique.
La capacité de l’IA à s’améliorer elle-même grâce aux données synthétiques, permettant d’obtenir une qualité et quantité de données d’entrainement robuste, démontre le potentiel unique de cette technologie.


(*) Gartner, « Maverick Research : Forget About Your Real Data – Synthetic Data Is the Future of AI », Leinar Ramos, Jitendra Subramanyam, 24 juin 2021.

 

À lire également :

Jumeau numérique : nouvelle mode ou réelles perspectives ?

Michelin optimise sa supply chain grâce au jumeau numérique

Les DSI réaffirment leur rôle dans l’évolution de la mise en production de l’IA en entreprise

« Pour que l’IA soit explicable, elle doit parler le même vocabulaire que les experts qu’elle renseigne… »

L’IA au secours de la souveraineté économique des régions

NVidia : Nouveaux GPU, nouveaux CPU, pleins de Grace…