Glossaire

Données synthétiques

Débloque la puissance des données synthétiques pour l'IA/ML ! Surmonte la pénurie de données, les problèmes de confidentialité et les coûts tout en stimulant la formation et l'innovation des modèles.

Les données synthétiques font référence à des informations générées artificiellement qui imitent les propriétés statistiques des données du monde réel, plutôt que d'être collectées directement à partir d'événements ou de mesures réels. Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), les données synthétiques servent d'alternative ou de complément crucial aux données d'entraînement réelles. Elles sont particulièrement précieuses lorsque la collecte d'un nombre suffisant de données réelles est difficile, coûteuse, chronophage(Guide de collecte et d'annotation des données) ou qu'elle soulève des problèmes de confidentialité des données. Ces informations créées artificiellement permettent de former des modèles tels que Ultralytics YOLOde tester des systèmes et d'explorer des scénarios qui pourraient être rares ou dangereux dans la réalité, ce qui stimule en fin de compte l'innovation et la performance des modèles.

Comment les données synthétiques sont-elles créées ?

La génération de données synthétiques fait appel à diverses techniques, en fonction de la complexité et de la fidélité requises. Les approches les plus courantes sont les suivantes :

Modélisation statistique : Utilisation de méthodes statistiques comme l'échantillonnage à partir de distributions de probabilités ou de modèles de régression dérivés de données réelles.
Simulations : Création d'environnements ou de processus virtuels pour générer des données. Cette méthode est courante en robotique et dans les systèmes autonomes, à l'aide de plateformes telles que NVIDIA Omniverse ou Unity Simulation.
Modèles d'apprentissage profond : Employer des techniques d'apprentissage profond (DL), en particulier les réseaux adversoriels génératifs (GAN) et, plus récemment, les modèles de diffusion. Ces modèles apprennent les modèles sous-jacents des données réelles et génèrent de nouveaux points de données similaires. L'article original sur les GAN a introduit un concept fondamental dans ce domaine.

Importance dans l'IA et la vision par ordinateur

Les données synthétiques offrent plusieurs avantages significatifs pour le développement de l'IA et la vision par ordinateur:

Surmonter la pénurie de données : Fournit de grands volumes de données lorsque les données réelles sont limitées ou coûteuses à acquérir, ce qui facilite la formation de modèles robustes(Conseils pour la formation de modèles).
Améliorer la confidentialité des données : Génère des données qui conservent des propriétés statistiques sans contenir d'informations sensibles sur le monde réel, ce qui aide à se conformer aux réglementations sur la protection de la vie privée et permet d'utiliser des techniques telles que la confidentialité différentielle.
Réduire les biais : peut être soigneusement contrôlé pour atténuer ou augmenter la représentation des groupes ou des scénarios sous-représentés, ce qui permet de remédier aux biais des ensembles de données et de promouvoir l'équité dans l'IA.
Couvrir les cas limites : Permet de créer des données représentant des scénarios rares ou dangereux (par exemple, des accidents pour les véhicules autonomes, des conditions médicales rares) qui sont difficiles à capturer dans la réalité. Cela permet d'améliorer la généralisation du modèle.
Efficacité en termes de coûts et de temps : Souvent moins coûteux et plus rapide à générer que la collecte et l'étiquetage des données du monde réel(L'étiquetage des données expliqué).

Dans le domaine de la vision par ordinateur, les images synthétiques sont fréquemment utilisées pour former des modèles pour des tâches telles que la détection d'objets, la segmentation d'images et l'estimation de la pose dans diverses conditions (par exemple, éclairage variable, conditions météorologiques, points de vue) qui peuvent être difficiles à trouver dans les ensembles de données disponibles.

Applications dans le monde réel

Les données synthétiques sont appliquées dans de nombreux secteurs d'activité :

L'IA dans l'automobile: La formation de modèles pour les voitures auto-conduites nécessite de vastes quantités de données de conduite diverses. Les simulations, comme l'environnement de simulation de Waymo, génèrent des scénarios synthétiques incluant des événements rares comme des accidents ou des conditions routières inhabituelles, cruciaux pour les tests de sécurité sans risque dans le monde réel. Cela accélère le développement de systèmes autonomes fiables.
L'IA dans les soins de santé: Le développement de modèles d'IA pour l'analyse d'images médicales, par exemple pour la détection de tumeurs, se heurte souvent à des difficultés liées aux réglementations sur la protection de la vie privée des patients (comme l'HIPAA) et à la rareté des données étiquetées pour les maladies rares. Les images médicales synthétiques ou les dossiers des patients (par exemple, générés à l'aide d'outils comme Synthea) permettent aux chercheurs d'entraîner des modèles sans compromettre la vie privée, démocratisant ainsi l'accès aux données.

Les autres applications comprennent la modélisation financière(AI in Finance), la vente au détail(AI for Smarter Retail) et la formation en robotique.