Glossaire

Données synthétiques

Libérez la puissance des données synthétiques pour l'IA/ML ! Surmontez la pénurie de données, les problèmes de confidentialité et les coûts tout en stimulant la formation et l'innovation des modèles.

Les données synthétiques sont des informations générées artificiellement pour imiter les données du monde réel. Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage machine (ML), elles constituent une alternative puissante ou un complément aux données du monde réel pour l'entraînement des modèles d'IA. La collecte d'ensembles de données réelles étendus, de haute qualité et correctement étiquetés peut s'avérer coûteuse, longue et parfois peu pratique en raison des réglementations relatives à la protection de la vie privée ou de la rareté de certains événements. Les données synthétiques offrent une solution en permettant aux développeurs de générer à la demande de vastes quantités de données parfaitement étiquetées, ce qui permet de remédier à ces limitations et d'accélérer le développement de systèmes de vision artificielle robustes.

Comment les données synthétiques sont-elles générées ?

Les données synthétiques peuvent être créées à l'aide de plusieurs techniques avancées, chacune adaptée à des applications différentes. Ces méthodes permettent un contrôle précis des caractéristiques des données générées, telles que l'éclairage, le placement des objets et les conditions environnementales.

  • Modélisation et simulation 3D: Les développeurs utilisent des environnements d'infographie et de simulation pour créer des mondes virtuels photoréalistes. Cette approche est courante en robotique et dans les systèmes autonomes, où des moteurs physiques peuvent simuler la physique du monde réel. Des plateformes telles que NVIDIA DRIVE Sim sont utilisées pour générer des données destinées à l'entraînement des voitures autopilotées.
  • Modèles génératifs: Des techniques telles que les réseaux adversaires génératifs (GAN) et, plus récemment, les modèles de diffusion constituent un élément essentiel de l'IA générative. Ces modèles apprennent les modèles sous-jacents à partir de données réelles pour créer des échantillons entièrement nouveaux et réalistes. Cette technique est particulièrement utile pour générer divers visages humains ou des scènes complexes.
  • Génération procédurale: Cette méthode utilise des algorithmes et des règles pour créer automatiquement des données. Elle est largement utilisée dans le développement de jeux vidéo pour générer des environnements à grande échelle et peut être adaptée pour produire des données de formation variées avec un minimum d'effort manuel.
  • Randomisation du domaine: Technique qui consiste à faire varier intentionnellement les paramètres d'une simulation (comme l'éclairage, la texture et la position des objets). Cela permet au modèle formé de mieux se généraliser d'un environnement simulé à un environnement réel en le forçant à se concentrer sur les caractéristiques essentielles. Un article fondateur de Tobin et al. a démontré l'efficacité de cette technique pour la manipulation robotique.

Applications dans le monde réel

L'utilisation de données synthétiques se développe dans de nombreux secteurs, permettant des percées là où les données réelles constituent un goulot d'étranglement.

  1. Véhicules autonomes: La formation des voitures autonomes nécessite des données provenant de millions de kilomètres de conduite, y compris des scénarios rares et dangereux tels que des accidents ou des conditions météorologiques extrêmes. La collecte de ces données dans le monde réel n'est ni sûre ni pratique. Les données synthétiques permettent aux développeurs de simuler ces cas limites dans un environnement sûr et contrôlé, améliorant ainsi la robustesse des systèmes de détection d'objets et de navigation. Des entreprises comme Waymo s'appuient fortement sur la simulation pour les tests et la validation.
  2. L'IA dans les soins de santé: Dans l'analyse d'images médicales, les données des patients sont très sensibles et protégées par des lois strictes sur la protection de la vie privée comme HIPAA. En outre, les données relatives aux maladies rares sont rares. Des données synthétiques peuvent être utilisées pour générer des scans médicaux réalistes (par exemple, CT ou MRI) sans compromettre la confidentialité des données. Cela permet de créer des ensembles de données plus importants et plus équilibrés, de réduire les biais de l'IA et d'améliorer la précision des modèles de diagnostic pour des conditions telles que la détection du cancer de la peau.

Données synthétiques et augmentation des données

Bien que les données synthétiques et l'augmentation des données visent toutes deux à améliorer les ensembles de données, elles fonctionnent différemment.

  • Augmentation des données: Cette technique consiste à appliquer des transformations telles que la rotation, le recadrage ou le changement de couleur à des images existantes du monde réel. Elle augmente la diversité de l'ensemble de formation en créant des versions modifiées des données originales. Vous pouvez en savoir plus sur les augmentations utilisées dans les modèles YOLO d'Ultralytics.
  • Données synthétiques: Il s'agit de créer des données entièrement nouvelles à partir de zéro en utilisant des simulations ou des modèles génératifs. Elles ne sont pas dérivées de points de données existants et peuvent représenter des scénarios totalement absents de l'ensemble de données original.

En résumé, l'augmentation des données modifie les données existantes, tandis que les données synthétiques créent de nouvelles données. Ces deux techniques sont puissantes et peuvent être combinées pour construire des modèles d'apprentissage profond très robustes et précis gérés par des plateformes comme Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers