Données synthétiques
Libérez la puissance des données synthétiques pour l'IA/ML ! Surmontez la pénurie de données, les problèmes de confidentialité et les coûts, tout en stimulant la formation de modèles et l'innovation.
Les données synthétiques sont des informations générées artificiellement pour imiter les données du monde réel. Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), elles constituent une alternative ou un complément puissant aux données du monde réel pour l'entraînement des modèles d'IA. La collecte de jeux de données du monde réel vastes, de haute qualité et correctement étiquetés peut être coûteuse, prendre du temps et parfois être impraticable en raison des réglementations en matière de confidentialité ou de la rareté de certains événements. Les données synthétiques offrent une solution en permettant aux développeurs de générer de grandes quantités de données parfaitement étiquetées à la demande, ce qui permet de surmonter ces limitations et d'accélérer le développement de systèmes de vision par ordinateur (CV) robustes.
Comment les données synthétiques sont-elles générées ?
Les données synthétiques peuvent être créées à l'aide de plusieurs techniques avancées, chacune étant adaptée à différentes applications. Ces méthodes permettent un contrôle précis des caractéristiques des données générées, telles que l'éclairage, le placement des objets et les conditions environnementales.
- Modélisation et simulation 3D : Les développeurs utilisent des environnements de graphisme et de simulation informatique pour créer des mondes virtuels photoréalistes. Cette approche est courante en robotique et dans les systèmes autonomes, où les moteurs physiques peuvent simuler la physique du monde réel. Des plateformes comme NVIDIA DRIVE Sim sont utilisées pour générer des données pour l'entraînement des voitures autonomes.
- Modèles génératifs : Des techniques comme les réseaux antagonistes génératifs (GAN) et, plus récemment, les modèles de diffusion sont un élément central de l'IA générative. Ces modèles apprennent les modèles sous-jacents à partir de données réelles pour créer des échantillons entièrement nouveaux et réalistes. Ceci est particulièrement utile pour générer divers visages humains ou des scènes complexes.
- Génération procédurale : Cette méthode utilise des algorithmes et des règles pour créer automatiquement des données. Elle est largement utilisée dans le développement de jeux vidéo pour générer des environnements à grande échelle et peut être adaptée pour produire des données d'entraînement variées avec un minimum d'effort manuel.
- Randomisation de domaine : Une technique où les paramètres d'une simulation (comme l'éclairage, la texture et les positions des objets) sont intentionnellement variés. Cela aide le modèle entraîné à mieux généraliser des environnements simulés aux environnements réels en le forçant à se concentrer sur les caractéristiques essentielles. Un article fondateur de Tobin et al. a démontré son efficacité pour la manipulation robotique.
Applications concrètes
L'utilisation de données synthétiques se développe dans de nombreux secteurs, permettant des avancées là où les données du monde réel constituent un goulot d'étranglement.
- Véhicules autonomes : L'entraînement des voitures autonomes nécessite des données provenant de millions de kilomètres de conduite, y compris des scénarios rares et dangereux comme des accidents ou des conditions météorologiques extrêmes. Il est dangereux et impraticable de collecter ces données dans le monde réel. Les données synthétiques permettent aux développeurs de simuler ces cas limites dans un environnement sûr et contrôlé, ce qui améliore la robustesse des systèmes de détection d'objets et de navigation. Des entreprises comme Waymo s'appuient fortement sur la simulation pour les tests et la validation.
- IA dans le domaine de la santé : Dans l'analyse d'images médicales, les données des patients sont très sensibles et protégées par des lois strictes sur la confidentialité comme HIPAA. De plus, les données pour les maladies rares sont rares. Les données synthétiques peuvent être utilisées pour générer des scans médicaux réalistes (par exemple, CT ou IRM) sans compromettre la confidentialité des données. Cela aide à créer des ensembles de données plus grands et plus équilibrés, réduisant les biais de l'IA et améliorant la précision des modèles de diagnostic pour des conditions comme la détection du cancer de la peau.
Données synthétiques vs. Augmentation des données
Bien que les données synthétiques et l'augmentation de données visent à améliorer les ensembles de données, elles fonctionnent différemment.
- Augmentation de données : Cette technique implique l'application de transformations telles que la rotation, le recadrage ou les changements de couleur aux images du monde réel existantes. Elle augmente la diversité de l'ensemble d'entraînement en créant des versions modifiées des données originales. Vous pouvez en apprendre davantage sur les augmentations utilisées dans les modèles Ultralytics YOLO.
- Données synthétiques : Cela implique la création de données entièrement nouvelles à partir de zéro en utilisant des simulations ou des modèles génératifs. Elles ne sont pas dérivées de points de données existants et peuvent représenter des scénarios totalement absents de l'ensemble de données d'origine.
En résumé, l'augmentation de données fait varier les données existantes, tandis que les données synthétiques créent de nouvelles données. Les deux sont des techniques puissantes, et elles peuvent être combinées pour construire des modèles de deep learning très robustes et précis, gérés via des plateformes comme Ultralytics HUB.