Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Améliorer la robustesse des modèles d'IA grâce à l'augmentation des données

Découvrez comment l'ajout de variations réalistes aux données d'entraînement grâce à l'augmentation des données contribue à améliorer la robustesse des modèles d'IA et leurs performances dans le monde réel.

Les tests constituent une étape cruciale dans le développement de toute solution technologique. Ils permettent aux équipes de voir comment un système fonctionne réellement avant sa mise en service et de corriger les problèmes à un stade précoce. Cela vaut pour de nombreux domaines, y compris l'IA, où les modèles doivent être capables de gérer des conditions réelles imprévisibles une fois déployés.

Par exemple, la vision par ordinateur est une branche de l'IA qui apprend aux machines à comprendre les images et les vidéos. Les modèles de vision par ordinateur tels que Ultralytics prennent en charge des tâches telles que la détection d'objets, la segmentation d'instances et la classification d'images.

Elles peuvent être utilisées dans de nombreux secteurs pour des applications telles que la surveillance des patients, l'analyse du trafic, le paiement automatisé et le contrôle qualité dans le secteur manufacturier. Cependant, même avec des modèles avancés et des données d'entraînement de haute qualité, les solutions d'IA visuelle peuvent encore rencontrer des difficultés lorsqu'elles sont confrontées à des variations du monde réel telles que des changements d'éclairage, des mouvements ou des objets partiellement obstrués.

Cela s'explique par le fait que les modèles apprennent à partir des exemples qui leur sont fournis pendant leur formation. S'ils n'ont jamais été confrontés à des conditions telles que l'éblouissement, le flou de mouvement ou la visibilité partielle, ils sont moins susceptibles de reconnaître correctement les objets dans ces scénarios.

L'augmentation des données est un moyen d'améliorer la robustesse des modèles. Au lieu de collecter de grandes quantités de nouvelles données, les ingénieurs peuvent apporter des modifications mineures mais significatives aux images existantes, par exemple en ajustant l'éclairage, en recadrant ou en mélangeant les images. Cela aide le modèle à apprendre à reconnaître les mêmes objets dans un plus large éventail de situations.

Dans cet article, nous allons voir comment l'augmentation des données améliore la robustesse des modèles et la fiabilité des systèmes d'IA visuelle lorsqu'ils sont déployés en dehors d'environnements contrôlés. C'est parti !

Comment vérifier la robustesse d'un modèle

Avant d'aborder le sujet de l'augmentation des données, voyons comment déterminer si un modèle de vision par ordinateur est réellement prêt à être utilisé dans le monde réel. 

Un modèle robuste continue de bien fonctionner même lorsque les conditions changent, plutôt que de ne fonctionner que sur des images nettes et parfaitement étiquetées. Voici quelques facteurs pratiques à prendre en compte lors de l'évaluation de la robustesse d'un modèle d'IA :

  • Changements d'éclairage : les modèles peuvent se comporter différemment lorsqu'ils sont exposés à une lumière vive, une faible luminosité, des reflets ou des ombres, ce qui peut affecter la fiabilité de la détection des objets.
  • Occlusion partielle : dans les scènes quotidiennes, les objets sont souvent masqués par d'autres éléments ou ne sont que partiellement visibles. Un modèle plus robuste est capable de les reconnaître même en l'absence d'informations visuelles.
  • Scènes encombrées : les environnements comportant de nombreux objets qui se chevauchent peuvent rendre la détection plus difficile. Les modèles qui fonctionnent bien dans ces cas-là sont généralement plus fiables dans des environnements complexes.

De bons résultats sur des images nettes et parfaitement capturées ne se traduisent pas toujours par des performances élevées dans le monde réel. Des tests réguliers dans des conditions variées permettent de montrer la qualité d'un modèle une fois déployé.

Qu'est-ce que l'augmentation des données ?

L'apparence d'un objet sur une photo peut varier en fonction de l'éclairage, de l'angle, de la distance ou de l'arrière-plan. Lorsqu'un modèle de vision par ordinateur est entraîné, l'ensemble de données à partir duquel il apprend doit inclure ce type de variations afin qu'il puisse fonctionner correctement dans des environnements imprévisibles.

L'augmentation des données permet d'élargir un ensemble de données d'entraînement en créant des exemples supplémentaires à partir des images dont vous disposez déjà. Pour ce faire, on applique des modifications intentionnelles telles que la rotation ou le retournement d'une image, le réglage de la luminosité ou le recadrage d'une partie de celle-ci. 

Par exemple, imaginez que vous n'ayez qu'une seule photo d'un chat. Si vous faites pivoter l'image ou modifiez sa luminosité, vous pouvez créer plusieurs nouvelles versions à partir de cette seule image. Chaque version est légèrement différente, mais il s'agit toujours d'une photo du même chat. Ces variations permettent d'apprendre au modèle qu'un objet peut avoir un aspect différent tout en restant le même.

Fig. 1. Exemple d'augmentation d'une image représentant un chat (Source)

Comment l'augmentation des données améliore les performances des modèles

Pendant l'entraînement du modèle, l'augmentation des données peut être intégrée directement dans le pipeline d'entraînement. Au lieu de créer et de stocker manuellement de nouvelles copies d'images, des transformations aléatoires peuvent être appliquées à mesure que chaque image est chargée. 

Cela signifie que le modèle voit à chaque fois une version légèrement différente de l'image, qu'elle soit plus lumineuse, inversée ou partiellement masquée. Des techniques telles que l'effacement aléatoire peuvent même supprimer de petites zones de l'image afin de simuler des situations réelles dans lesquelles un objet est masqué ou seulement partiellement visible.

Fig. 2. Exemples d'augmentation basée sur l'effacement aléatoire (Source)

Le fait de voir plusieurs versions différentes d'une même image permet au modèle d'apprendre quelles caractéristiques sont importantes, plutôt que de se baser sur un seul exemple parfait. Cette diversité renforce la robustesse du modèle d'IA, qui peut ainsi fonctionner de manière plus fiable dans des conditions réelles.

Techniques courantes d'augmentation des données

Voici quelques techniques d'augmentation des données utilisées pour introduire de la variation dans les images d'entraînement :

  • Transformations géométriques : ces techniques modifient l'apparence spatiale d'un objet dans une image. La rotation, le retournement, le redimensionnement, le recadrage ou le déplacement d'une image permettent au modèle de comprendre comment un objet peut être vu sous différents angles ou à différentes distances.
  • Réglages de couleur et d'éclairage : dans la réalité, l'éclairage est rarement constant. Les images peuvent être trop lumineuses, trop sombres ou légèrement décalées en termes de couleur, selon l'environnement ou l'appareil photo utilisé. Le réglage de la luminosité, du contraste, de la teinte et de la saturation permet aux modèles de gérer ces changements visuels et d'offrir de bonnes performances dans différentes scènes.
  • Variations de la qualité d'image : le flou ou le bruit visuel peuvent rendre les images floues. L'ajout de flou ou de bruit pendant l'entraînement aide le modèle à apprendre à gérer le flou de mouvement, les images en basse lumière ou les résultats de caméra de moindre qualité, afin qu'il devienne moins sensible aux imperfections visuelles.
  • Augmentations basées sur l'occlusion : dans les environnements réels, les objets sont souvent partiellement masqués par d'autres objets. C'est ce qu'on appelle les occlusions d'image. Le fait de masquer ou de cacher de petites zones d'une image pendant l'entraînement aide le modèle à apprendre à detect même lorsqu'ils ne sont que partiellement visibles.
  • Augmentations multi-images : ces techniques combinent des parties de plusieurs images en un seul exemple d'entraînement, ce qui peut augmenter le nombre d'objets visibles et améliorer la capacité du modèle à traiter des scènes complexes ou encombrées.
Fig. 3. Exemple d'augmentation multi-images (Source)

Augmentation des données facilitée grâce auPython Ultralytics

La gestion des ensembles de données, la création de variations d'images et l'écriture de code de transformation peuvent ajouter des étapes supplémentaires à la création d'une application de vision par ordinateur. Le Python Ultralytics simplifie ce processus en fournissant une interface unique pour l'entraînement, l'exécution et le déploiementYOLO Ultralytics YOLO tels que YOLO26. Dans le cadre de cet effort visant à rationaliser les workflows d'entraînement, le package comprend une augmentation des données intégrée et Ultralytics, optimisée pour YOLO .

Il prend également en charge des intégrations utiles qui éliminent le besoin d'outils séparés ou de code personnalisé. Plus précisément, pour l'augmentation des données, le package s'intègre à Albumentations, une bibliothèque d'augmentation d'images largement utilisée. Cette intégration permet d'appliquer automatiquement des augmentations pendant la formation, sans avoir besoin de scripts supplémentaires ou de code personnalisé.

Gestion des annotations et des ensembles de données enrichis

Un autre facteur qui influe sur la robustesse du modèle est la qualité des annotations. Des étiquettes claires et précises, créées et gérées à l'aide d'outils d'annotation tels que Roboflow, aident le modèle à comprendre où se trouvent les objets et à quoi ils ressemblent.

Pendant l'entraînement, des augmentations de données telles que des retournements, des recadrages et des rotations sont appliquées de manière dynamique, et les annotations sont automatiquement ajustées pour correspondre à ces changements. Lorsque les étiquettes sont précises, ce processus fonctionne sans heurts et fournit au modèle de nombreux exemples réalistes de la même scène.

Si les annotations sont inexactes ou incohérentes, ces erreurs peuvent finir par se répéter dans toutes les images augmentées, ce qui peut nuire à l'efficacité de l'entraînement. Commencer par des annotations précises empêche ces erreurs de se propager et contribue à améliorer la robustesse du modèle.

Améliorer les applications d'IA visuelle grâce à l'augmentation des données

Voyons maintenant quelques exemples illustrant comment l'augmentation des données contribue à la robustesse des modèles d'IA dans des applications concrètes.

Améliorer la précision de la détection d'objets dans des environnements réels

Les images synthétiques sont souvent utilisées pour entraîner les systèmes de détection d'objets lorsque les données réelles sont limitées, sensibles ou difficiles à collecter. Elles permettent aux équipes de générer rapidement des exemples de produits, d'environnements et d'angles de caméra sans avoir à capturer chaque scénario dans la vie réelle. 

Cependant, les ensembles de données synthétiques peuvent parfois sembler trop propres par rapport aux images réelles, où la lumière change, les objets se chevauchent et les scènes comportent des éléments parasites en arrière-plan. L'augmentation des données permet de combler cette lacune en introduisant des variations réalistes, telles que différents éclairages, bruits ou emplacements d'objets, afin que le modèle apprenne à gérer les types de conditions qu'il rencontrera lors de son déploiement.

Par exemple, dans une étude récente, un YOLO11 a été entièrement entraîné sur des images synthétiques, et une augmentation des données a été ajoutée pour introduire une variation supplémentaire. Cela a permis au modèle d'apprendre à reconnaître les objets de manière plus large. Il a obtenu de bons résultats lors des tests sur des images réelles, même s'il n'avait jamais vu de données du monde réel pendant son entraînement.

Rendre les solutions d'imagerie médicale plus fiables

Les ensembles de données d'imagerie médicale sont souvent limités, et les scans eux-mêmes peuvent varier en fonction du type d'équipement, des paramètres d'imagerie ou de l'environnement clinique. Les différences dans l'anatomie des patients, les angles, l'éclairage ou le bruit visuel peuvent rendre difficile l'apprentissage par les modèles de vision par ordinateur de modèles qui se généralisent bien entre les patients et les hôpitaux.

L'augmentation des données permet de remédier à ce problème en créant plusieurs variantes d'un même scan pendant l'entraînement, par exemple en ajoutant du bruit, en décalant légèrement l'image ou en appliquant de légères distorsions. Ces modifications rendent les données d'entraînement plus représentatives des conditions cliniques réelles.

Par exemple, dans une étude d'imagerie pédiatrique, les chercheurs ont utilisé YOLO11 la segmentation anatomique et l'ont entraîné sur des données médicales augmentées. Ils ont introduit des variations telles que du bruit ajouté, de légers décalages de position et de petites distorsions afin de rendre les images plus réalistes.

Fig. 4. Images médicales pédiatriques originales et augmentées (Source)

En tirant des enseignements de ces variations, le modèle s'est concentré sur les caractéristiques anatomiques significatives plutôt que sur les différences superficielles. Cela a permis d'obtenir des résultats de segmentation plus stables entre les différents scans et les différents cas de patients.

Principaux points à retenir

Il est difficile de collecter des données variées, mais l'augmentation des données permet aux modèles d'apprendre à partir d'un éventail plus large de conditions visuelles. Cela se traduit par une plus grande robustesse des modèles lorsqu'ils sont confrontés à des occlusions, des changements d'éclairage et des scènes encombrées. Dans l'ensemble, cela les aide à fonctionner de manière plus fiable en dehors des environnements d'entraînement contrôlés. 

Rejoignez notre communauté et explorez les dernières nouveautés en matière de vision artificielle sur notre dépôt GitHub. Visitez nos pages de solutions pour découvrir comment des applications telles que l 'IA dans la fabrication et la vision par ordinateur dans les soins de santé sont à l'origine de progrès, et consultez nos options de licence pour mettre en œuvre votre prochaine solution d'IA.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement