Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

Que sont les données synthétiques en vision par ordinateur ? Un aperçu

Abirami Vina

5 min de lecture

4 juillet 2025

Découvrez comment les données synthétiques pour l'entraînement des modèles d'IA sont utilisées dans les applications de vision par ordinateur dans divers secteurs tels que la santé et la robotique.

Les données ont toujours été un facteur déterminant dans des domaines tels que l'analyse et l'intelligence artificielle (IA). En fait, la façon dont nous collectons, générons et utilisons les données façonne l'avenir des systèmes intelligents. Par exemple, les voitures autonomes dépendent de millions d'images étiquetées et de relevés de capteurs, des panneaux de signalisation aux mouvements des piétons, pour apprendre à naviguer sur les routes en toute sécurité.

L'un des types de données les plus importants qui alimentent ce progrès, en particulier dans des domaines comme les véhicules autonomes et la sécurité, sont les données visuelles comme les images et les vidéos. 

En particulier, le domaine de l'IA qui permet aux machines d'interpréter ces informations visuelles est appelé vision par ordinateur. Il aide les systèmes à comprendre et à analyser les entrées visuelles comme le font les humains, en prenant en charge des tâches telles que la reconnaissance faciale, la détection des panneaux de signalisation et l'analyse d'images médicales. 

Cependant, la collecte d'ensembles de données visuelles à grande échelle et de haute qualité à partir du monde réel peut être longue, coûteuse et soulève souvent des problèmes de confidentialité. C'est pourquoi les chercheurs explorent activement le concept d'exploitation des données synthétiques. 

Les données synthétiques désignent des visuels générés artificiellement qui imitent fidèlement les images et les vidéos du monde réel. Elles sont créées à l'aide de techniques telles que la modélisation 3D, les simulations informatiques et les méthodes d'IA générative telles que les réseaux antagonistes génératifs (GAN), qui apprennent des modèles à partir de données réelles pour produire de nouveaux exemples réalistes.

Les données synthétiques devraient jouer un rôle essentiel dans le développement de l'IA prochainement. Gartner prévoit d'ailleurs que d'ici 2030, elles deviendront plus essentielles que les données du monde réel. Dans cet article, nous allons explorer ce que sont les données synthétiques dans le contexte de la vision par ordinateur, comment elles sont générées et où elles sont appliquées dans des scénarios du monde réel. Commençons !

Que sont les données synthétiques en vision par ordinateur ?

Supposons que vous souhaitiez entraîner un modèle de Vision IA pour détecter des objets dans divers environnements et conditions. Se fier uniquement aux données du monde réel peut être difficile et parfois limitant. 

Par ailleurs, les données synthétiques peuvent être utilisées pour créer le bon ensemble de données, contenant des objets dans diverses conditions créées artificiellement. En utilisant des outils tels que la modélisation 3D et des simulations, les développeurs peuvent générer des images avec un contrôle précis sur des facteurs tels que l'éclairage, les angles et le placement des objets. Ceci, à son tour, offre plus de flexibilité pour l'entraînement du modèle que les données du monde réel.

Les données synthétiques sont particulièrement utiles lorsque la collecte de données du monde réel est difficile, voire impossible. Par exemple, l'entraînement d'un modèle à reconnaître des personnes dans un large éventail de poses, comme courir, s'accroupir ou s'allonger, nécessiterait la capture de milliers de photos dans de nombreux contextes, angles et conditions d'éclairage différents. 

D'un autre côté, grâce aux données synthétiques, les développeurs peuvent facilement générer ces variations avec des étiquettes précises, ce qui permet de gagner du temps et de l'énergie tout en améliorant les performances du modèle.

Fig 1. Un ensemble de données synthétiques avec différentes poses humaines et variations d'éclairage (source).

Données synthétiques vs. données réelles dans l'IA

Ensuite, examinons de plus près les différences entre les données synthétiques et les données réelles. Les deux ont leurs avantages et leurs inconvénients en matière d'formation des modèles d'IA

Par exemple, les données synthétiques sont utiles lorsque les données réelles sont difficiles à collecter, mais elles peuvent ne pas capturer tous les petits détails que l'on trouve dans la vie réelle. Dans le même temps, les données réelles sont plus authentiques, mais elles peuvent être difficiles à obtenir, longues à étiqueter et peuvent ne pas couvrir toutes les situations.

En combinant des données synthétiques et réelles, les développeurs peuvent obtenir le meilleur des deux mondes. Cet équilibre aide les modèles d'IA à apprendre plus précisément, à mieux se généraliser dans différents scénarios et à réduire les biais.

Fig. 2. Données synthétiques vs. données réelles en IA. Image par l'auteur.

Un aperçu de la génération de données pour les modèles de vision par ordinateur

De la construction de mondes virtuels avec des outils 3D à la génération d'images à l'aide de l'IA générative, voici quelques méthodes courantes utilisées pour créer des données d'entraînement synthétiques pour les modèles de vision par ordinateur :

  • Modélisation 3D : Les développeurs utilisent des logiciels 3D pour créer des objets et des scènes numériques. Cela permet un contrôle total sur des éléments tels que l'éclairage, les angles de caméra et le placement des objets, et est utile pour générer des images réalistes de personnes, de véhicules et d'environnements.

  • Simulations : Elles recréent des situations du monde réel, comme le trafic ou les environnements d'usine, à l'aide de moteurs basés sur la physique. Les simulations sont utiles pour générer en toute sécurité des données d'entraînement dans des domaines tels que la robotique et les voitures autonomes.

  • Réseaux antagonistes génératifs : Les GAN sont un type de modèle d'apprentissage profond composé de deux réseaux : un qui crée des images et un qui les évalue. Ensemble, ils génèrent des images très réalistes, telles que des visages humains ou des vues de rue, en apprenant à partir d'exemples réels.

  • Génération procédurale : Cette technique utilise des règles prédéfinies ou des modèles mathématiques pour générer automatiquement des structures visuelles complexes comme des terrains, des bâtiments ou des textures. Elle est souvent utilisée dans les plateformes de jeux et de simulation et peut produire des ensembles de données diversifiés à grande échelle avec un minimum d'intervention humaine.

  • Randomisation de domaine : Elle peut modifier aléatoirement des éléments tels que l'éclairage, les couleurs et les formes des objets dans des scènes synthétiques. L'objectif de cette technique est d'aider les modèles à se concentrer sur ce qui compte vraiment, ce qui les rend plus adaptables aux environnements réels.
Fig 3. Exemples de données : (a) basé sur un modèle 3D, (b) scènes synthétiques multi-objets et (c) images de jeux de données réels (source).

Entraînement de modèles d'IA de vision avec des données synthétiques

Maintenant que nous avons discuté de certaines des différentes méthodes utilisées pour créer des données synthétiques, voyons comment elles sont utilisées pour l'entraînement des modèles d'IA. 

Une fois générées, les données synthétiques peuvent généralement être intégrées directement dans le pipeline d'entraînement de la même manière que les données du monde réel. Elles comprennent généralement les annotations nécessaires, telles que les étiquettes d'objets, les boîtes englobantes ou les masques de segmentation, ce qui signifie qu'elles peuvent être utilisées pour des tâches d'apprentissage supervisé, où les modèles apprennent à partir de paires entrée-sortie étiquetées, sans qu'il soit nécessaire de les étiqueter manuellement.

Pendant l'entraînement, le modèle traite des images synthétiques pour apprendre à détecter les caractéristiques, à reconnaître les motifs et à classifier les objets. Ces données peuvent être utilisées pour construire une version initiale du modèle à partir de zéro ou pour enrichir un ensemble de données existant, ce qui contribue à améliorer les performances du modèle.

Dans de nombreux flux de travail, les données synthétiques sont également utilisées pour le pré-entraînement, donnant aux modèles une large compréhension de base avant d'être affinés avec des exemples du monde réel. De même, elles sont utilisées pour augmenter les ensembles de données en introduisant des variations contrôlées, comme différentes conditions d'éclairage, des angles ou des classes d'objets rares, afin d'améliorer la généralisation et de réduire le surapprentissage. 

En combinant des données synthétiques et réelles, les équipes peuvent entraîner des modèles plus robustes qui fonctionnent bien dans un large éventail de conditions, tout en réduisant la dépendance à l'égard des efforts manuels de collecte de données, qui sont coûteux et prennent beaucoup de temps.

Applications concrètes des données synthétiques dans la vision par ordinateur

À mesure que les données synthétiques deviennent plus pratiques et accessibles, nous commençons à les voir adoptées dans divers cas d'utilisation concrets de la Vision IA. Explorons quelques-unes des applications les plus marquantes en vision par ordinateur où elles sont utilisées.

Utilisation de données synthétiques pour la détection d'objets dans les véhicules autonomes

Pour apprendre aux voitures autonomes à conduire en toute sécurité, il est nécessaire d'entraîner les modèles sur un large éventail de scénarios, y compris des situations rares ou dangereuses. Cependant, la collecte de données du monde réel pour ces cas extrêmes peut être difficile et parfois dangereuse. Les données synthétiques peuvent aider à créer des scènes où les modèles peuvent apprendre à détecter des objets dans des situations difficiles. Elles peuvent également imiter différentes configurations de capteurs, ce qui est utile car toutes les voitures autonomes n'utilisent pas le même matériel.

La plateforme DRIVE Sim de NVIDIA en est un excellent exemple. Elle crée des données synthétiques de haute qualité en utilisant des modèles 3D photoréalistes, des environnements virtuels et des simulations de capteurs. Elle peut également générer des images de multiples angles de conduite à partir d'une seule image. L'utilisation de données synthétiques comme celles-ci contribue à réduire le besoin de tests coûteux dans le monde réel, tout en donnant au modèle la variété dont il a besoin pour apprendre efficacement.

Fig. 4. Création de vues de conduite multiples à partir d'une seule image (source).

Réduire les biais dans l'IA d'imagerie médicale grâce aux données synthétiques

Les modèles de vision par ordinateur comme Ultralytics YOLO11 qui prennent en charge des tâches comme la détection d'objets et la segmentation d'instance peuvent être entraînés sur mesure pour des applications d'imagerie médicale. Cependant, les données d'entraînement du monde réel contiennent souvent des biais, car elles peuvent ne pas représenter adéquatement les patients de tous les groupes démographiques.

Par exemple, le cancer de la peau est moins souvent diagnostiqué chez les personnes ayant un teint plus foncé, ce qui entraîne des données limitées pour ces populations. Ce déséquilibre peut contribuer à des erreurs de diagnostic et à des inégalités en matière de soins de santé, en particulier dans des domaines tels que l'histopathologie, les radiographies pulmonaires et la dermatologie.

Les images synthétiques peuvent contribuer à combler ce manque de données. En générant des exemples supplémentaires et diversifiés, tels que des anomalies tissulaires variées, un large éventail d'affections pulmonaires et des teintes de peau avec différents types de lésions, les données synthétiques peuvent contribuer à améliorer les performances des modèles pour les groupes sous-représentés. 

Les chercheurs travaillent actuellement au développement et à la validation d'ensembles de données synthétiques pour soutenir ces objectifs. Ils explorent également comment les données synthétiques peuvent être utilisées pour tester des outils médicaux et des stratégies de traitement sans s'appuyer sur les dossiers de patients réels, ce qui contribue à accélérer la recherche tout en protégeant la vie privée des patients. Grâce à ce travail, les données synthétiques ouvrent la voie à des systèmes d'IA médicale plus inclusifs, précis et éthiques.

Faire progresser l'IA agricole grâce à des données synthétiques pour une agriculture de précision

La construction de systèmes d'IA de vision pour les applications agricoles dépend de l'accès à de grandes quantités de données étiquetées. Cependant, la collecte et l'étiquetage d'images de cultures, de maladies et de conditions de terrain sont lents, coûteux et souvent limités par des éléments tels que la météo, les saisons de croissance ou la difficulté d'accès à certaines zones. 

Ces défis rendent difficile la formation de modèles de vision par ordinateur pour gérer des tâches telles que la détection des maladies des plantes, la surveillance des cultures ou la prévision des rendements. C'est là que les données synthétiques peuvent aider - en imitant différents environnements agricoles pour générer des exemples de formation utiles.

Fig 5. Utilisation d'images synthétiques pour une meilleure détection des maladies (source).

Principaux points à retenir

L'utilisation de données synthétiques représente une avancée importante dans l'entraînement des modèles d'IA, en particulier pour les systèmes de vision par ordinateur dans les domaines où les données du monde réel sont limitées ou difficiles à obtenir. Plutôt que de s'appuyer uniquement sur des photos ou des vidéos réelles, qui peuvent être coûteuses, chronophages ou soulever des problèmes de confidentialité, les données synthétiques nous permettent de générer des images réalistes et étiquetées à la demande. 

Il facilite la formation de modèles de vision artificielle pour des tâches telles que la conduite autonome, la détection de maladies ou la surveillance des cultures. Alors que l'IA continue d'évoluer, les données synthétiques sont appelées à jouer un rôle encore plus important dans l'accélération de l'innovation et l'amélioration de l'accessibilité dans tous les secteurs.

Apprenez-en davantage sur l'IA sur notre dépôt GitHub et rejoignez notre communauté en pleine croissance. Découvrez l'impact d'applications telles que l'IA dans les véhicules autonomes et la vision par ordinateur dans l'agriculture. Explorez nos options de licences et donnez vie à vos projets de Vision IA.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers