Le guide ultime de l'augmentation des données en 2025

Abirami Vina

6 minutes de lecture

14 février 2025

Découvrez comment l'augmentation des données d'images permet aux modèles Vision AI de mieux apprendre, d'améliorer la précision et d'être plus performants dans des situations réelles.

En raison de l'essor de l'IA, des phénomènes tels que les robots travaillant dans les usines et les voitures autonomes circulant dans les rues font de plus en plus souvent la une des journaux. L'IA modifie la façon dont les machines interagissent avec le monde, qu'il s'agisse d'améliorer l'imagerie médicale ou d'aider au contrôle de la qualité sur les chaînes de production.

Une grande partie de ces progrès provient de la vision artificielle, une branche de l'IA qui permet aux machines de comprendre et d'interpréter les images. Tout comme les humains apprennent à reconnaître des objets et des modèles au fil du temps, les modèles de vision artificielle comme Ultralytics YOLO11 doivent être entraînés sur de grandes quantités de données d'images pour développer leur compréhension visuelle.

Cependant, il n'est pas toujours facile de collecter une telle quantité de données visuelles. Même si la communauté des spécialistes de la vision par ordinateur a créé de nombreux grands ensembles de données, certaines variations peuvent encore lui échapper, comme les images d'objets faiblement éclairés, d'objets partiellement cachés ou d'objets vus sous des angles différents. Ces différences peuvent être source de confusion pour les modèles de vision artificielle qui n'ont été formés qu'à des conditions spécifiques.

L'augmentation des données d' images est une technique qui résout ce problème en introduisant de nouvelles variations dans les données existantes. En apportant des modifications aux images, telles que l'ajustement des couleurs, la rotation ou le changement de perspective, l'ensemble de données devient plus diversifié, ce qui aide les modèles d'IA Vision à mieux reconnaître les objets dans des situations réelles.

Dans cet article, nous verrons comment fonctionne l'augmentation des données d'image et l'impact qu'elle peut avoir sur les applications de vision par ordinateur.

Qu'est-ce que l'augmentation des données d'image ?

Supposons que vous essayez de reconnaître un ami dans une foule, mais qu'il porte des lunettes de soleil ou qu'il se tient dans un endroit ombragé. Même avec ces changements mineurs d'apparence, vous savez toujours qui c'est. En revanche, un modèle d'IA de vision peut éprouver des difficultés avec de telles variations, à moins qu'il n'ait été entraîné à reconnaître des objets dans différents contextes.

L'augmentation des données d'images améliore les performances des modèles de vision par ordinateur en ajoutant des versions modifiées d'images existantes aux données d'apprentissage, au lieu de collecter des milliers de nouvelles images. 

Les modifications apportées aux images, telles que le retournement, la rotation, l'ajustement de la luminosité ou l'ajout de petites distorsions, exposent les modèles de Vision AI à un plus large éventail de conditions. Au lieu de s'appuyer sur des ensembles de données massifs, les modèles peuvent apprendre efficacement à partir d'ensembles de données d'entraînement plus petits avec des images augmentées. 

__wf_reserved_inherit
Fig. 1. Exemples d'images augmentées d'une voiture.

L'importance de l'augmentation des données dans la vision par ordinateur

Voici quelques-unes des raisons pour lesquelles l'augmentation est essentielle pour la vision par ordinateur :

  • Réduction des besoins en données: La collecte de grands ensembles de données d'images nécessite du temps et des ressources. L'augmentation peut être utilisée pour former efficacement des modèles sans avoir besoin d'ensembles de données massifs.
  • Prévention de l'adaptation excessive: Un modèle formé sur trop peu d'exemples peut mémoriser des détails au lieu de reconnaître des modèles généraux. L'augmentation de la variété garantit que les modèles Vision AI apprennent d'une manière qui s'applique à des données nouvelles et inédites.
  • Imite les images imparfaites: Les images des ensembles de données sont souvent trop parfaites, mais les photos du monde réel peuvent être floues, obscurcies ou déformées. L'ajout de bruit, d'occlusions ou d'autres variations aux images les rend plus réalistes.
  • Amélioration de la robustesse du modèle: L'entraînement avec une variété d'images aide l'IA à gérer les changements du monde réel, ce qui la rend plus fiable dans différents environnements, conditions d'éclairage et situations.

Quand faut-il recourir à l'augmentation des données d'image ?

L'augmentation des données d'images est particulièrement utile lorsqu'un modèle de vision par ordinateur doit reconnaître des objets dans différentes situations, mais qu'il ne dispose pas de suffisamment d'images variées. 

Par exemple, si les chercheurs forment un modèle d'IA de vision pour identifier des espèces sous-marines rares qui sont rarement photographiées, l'ensemble de données peut être petit ou manquer de variation. En augmentant les images - en ajustant les couleurs pour simuler différentes profondeurs d'eau, en ajoutant du bruit pour imiter les conditions troubles ou en modifiant légèrement les formes pour tenir compte des mouvements naturels - le modèle peut apprendre à détecter les objets sous-marins avec plus de précision.

Voici d'autres situations où l'augmentation fait une grande différence :

  • Équilibrer l'ensemble des données : Certains objets peuvent apparaître moins souvent dans les données d'apprentissage, ce qui rend les modèles de Vision AI biaisés. L'augmentation permet de créer davantage d'exemples d'objets rares afin que le modèle puisse reconnaître toutes les catégories de manière équitable.
  • Adaptation à différents appareils photo : Les images peuvent avoir un aspect différent selon l'appareil. L'augmentation aide les modèles Vision AI à être performants sur des photos de résolutions, d'éclairages et de qualités différentes.
  • Correction des petites erreurs d'étiquetage : De légers décalages, recadrages ou rotations permettent aux modèles de vision artificielle de reconnaître correctement les objets, même si les étiquettes d'origine ne sont pas parfaitement alignées.

Comment fonctionne l'augmentation des données d'image

Dans les premiers temps de la vision par ordinateur, l'augmentation des données d'image impliquait principalement des techniques de traitement d'image de base telles que le retournement, la rotation et le recadrage afin d'accroître la diversité des ensembles de données. Avec l'amélioration de l'IA, des méthodes plus avancées ont été introduites, telles que l'ajustement des couleurs (transformations de l'espace colorimétrique), l'accentuation ou le flou des images (filtres à noyau) et le mélange de plusieurs images (mélange d'images) afin d'améliorer l'apprentissage.

L'augmentation peut avoir lieu avant et pendant l'apprentissage du modèle. Avant la formation, des images modifiées peuvent être ajoutées à l'ensemble de données afin d'offrir une plus grande variété. Pendant la formation, les images peuvent être modifiées de manière aléatoire en temps réel, ce qui aide les modèles d'IA Vision à s'adapter à différentes conditions.

Ces changements sont effectués à l'aide de transformations mathématiques. Par exemple, la rotation incline une image, le recadrage enlève des parties pour imiter différentes vues, et les changements de luminosité simulent des variations d'éclairage. Le flou adoucit les images, la netteté rend les détails plus clairs et le mélange d'images combine des parties de différentes images. Les cadres et outils d'IA de la vision comme OpenCV, TensorFlow et PyTorch peuvent automatiser ces processus, ce qui rend l'augmentation rapide et efficace.

Techniques d'augmentation des données d'images clés

Maintenant que nous avons discuté de ce qu'est l'augmentation des données d'images, examinons de plus près certaines techniques fondamentales d'augmentation des données d'images utilisées pour améliorer les données d'apprentissage.

Réglage de l'orientation et de la position

Les modèles de vision artificielle comme YOLO11 doivent souvent reconnaître des objets sous différents angles et points de vue. Pour ce faire, les images peuvent être retournées horizontalement ou verticalement afin que le modèle d'IA apprenne à reconnaître les objets à partir de différents points de vue. 

De même, la rotation des images modifie légèrement leur angle, ce qui permet au modèle d'identifier les objets sous plusieurs angles. De même, le déplacement des images dans différentes directions (translation) aide les modèles à s'adapter à de petits changements de position. Ces transformations permettent aux modèles de mieux s'adapter aux conditions du monde réel, où l'emplacement des objets dans une image est imprévisible.

__wf_reserved_inherit
Fig. 2. Différentes méthodes d'augmentation liées à l'orientation et à la position.

Redimensionnement et recadrage

En ce qui concerne les solutions de vision par ordinateur dans le monde réel, les objets dans les images peuvent apparaître à des distances et des tailles variables. Les modèles de vision artificielle doivent être suffisamment robustes pour les détecter quelles que soient ces différences. 

Pour améliorer l'adaptabilité, les méthodes d'augmentation suivantes peuvent être utilisées :

  • Mise à l'échelle: Le redimensionnement modifie la taille de l'image tout en conservant ses proportions, ce qui permet aux modèles d'IA de détecter des objets à différentes distances.
  • Recadrage: Cette opération consiste à supprimer les parties inutiles d'une image, ce qui permet au modèle de se concentrer sur les zones clés et de réduire les distractions en arrière-plan.
  • Cisaillement: L'inclinaison d'une image simule une apparence inclinée ou étirée, ce qui aide l'IA à reconnaître des objets sous différents angles.

Ces ajustements permettent aux modèles de vision artificielle de reconnaître des objets même si leur taille ou leur forme change légèrement.

Ajustements de la perspective et de la distorsion

Les objets dans les images peuvent apparaître différemment selon l'angle de la caméra, ce qui rend la reconnaissance difficile pour les modèles de vision par ordinateur. Pour aider les modèles à gérer ces variations, les techniques d'augmentation peuvent ajuster la façon dont les objets sont présentés dans les images. 

Par exemple, les transformations de perspective peuvent modifier l'angle de vue, ce qui donne l'impression qu'un objet est vu depuis une position différente. Cela permet aux modèles de Vision AI de reconnaître des objets même lorsqu'ils sont inclinés ou capturés d'un point de vue inhabituel. 

Un autre exemple est une transformation élastique qui étire, plie ou déforme les images pour simuler des distorsions naturelles afin que les objets apparaissent comme ils le feraient dans des reflets ou sous pression. 

Modification des couleurs et de l'éclairage

Les conditions d'éclairage et les différences de couleur peuvent avoir un impact significatif sur la manière dont les modèles Vision AI interprètent les images. Comme les objets peuvent apparaître différemment selon les paramètres d'éclairage, les techniques d'augmentation suivantes peuvent aider à gérer ces situations :

  • Ajustements de la luminosité et du contraste: La simulation de différentes conditions d'éclairage permet aux modèles Vision AI de reconnaître des objets dans des environnements lumineux ou sombres.
  • L'instabilité des couleurs: La modification aléatoire de la teinte, de la saturation et de l'équilibre des couleurs permet aux modèles de vision par ordinateur de mieux s'adapter aux différentes caméras et conditions d'éclairage.
  • Conversion en niveaux de gris: La conversion des images en noir et blanc encourage les modèles Vision AI à se concentrer sur les formes et les textures plutôt que sur les couleurs.
__wf_reserved_inherit
Fig. 3. Exemples d'augmentations liées aux variations de couleur.

Techniques avancées d'enrichissement des données d'images

Jusqu'à présent, nous n'avons exploré que les techniques d'augmentation qui modifient une seule image. Cependant, certaines méthodes avancées consistent à combiner plusieurs images pour améliorer l'apprentissage de l'IA.

Par exemple, MixUp mélange deux images, ce qui permet aux modèles de vision artificielle de comprendre les relations entre les objets et d'améliorer leur capacité de généralisation dans différents scénarios. CutMix va plus loin en remplaçant une partie d'une image par une partie d'une autre image, ce qui permet aux modèles d'apprendre à partir de contextes multiples au sein d'une même image. CutOut, quant à lui, fonctionne différemment en supprimant des parties aléatoires d'une image, ce qui permet d'entraîner les modèles de vision artificielle à reconnaître des objets même lorsqu'ils sont partiellement cachés ou obstrués.

__wf_reserved_inherit
Fig. 4. Techniques avancées d'enrichissement des données d'image.

Le rôle de l'IA générative dans l'augmentation des données d'image

L'IA générative gagne du terrain dans de nombreuses industries et applications quotidiennes. Vous l'avez probablement déjà rencontrée dans le cadre d'images générées par l'IA, de vidéos "deepfake" ou d'applications qui créent des avatars réalistes. Mais au-delà de la créativité et du divertissement, l'IA générative joue un rôle crucial dans la formation des modèles d'IA de vision en générant de nouvelles images à partir d'images existantes.

Plutôt que de simplement retourner ou faire pivoter des images, il peut créer des variations réalistes - en changeant les expressions faciales, les styles vestimentaires ou même en simulant des conditions météorologiques différentes. Ces variations aident les modèles de vision artificielle à devenir plus adaptables et plus précis dans divers scénarios du monde réel. Les modèles d'IA générative avancés tels que les GAN (Generative Adversarial Networks) et les modèles de diffusion peuvent également combler les détails manquants ou créer des images synthétiques de haute qualité.

Limites de l'augmentation des données d'images

Si l'augmentation des données permet d'améliorer les ensembles de données d'entraînement, il faut également tenir compte de certaines limites. Voici quelques défis majeurs liés à l'augmentation des données d'images :

  • Diversité limitée des données: Les images augmentées proviennent de données existantes et ne peuvent pas introduire des modèles complètement nouveaux ou des perspectives rares.
  • Distorsion potentielle des données: Des transformations excessives peuvent rendre les images irréalistes, réduisant potentiellement la précision du modèle dans des scénarios réels.
  • Augmentation des calculs: L'augmentation en temps réel qui a lieu pendant l'apprentissage du modèle peut nécessiter une puissance de traitement assez importante, ce qui ralentit l'apprentissage et augmente l'utilisation de la mémoire.
  • Le déséquilibre des classes demeure: L'augmentation ne crée pas d'échantillons entièrement nouveaux, de sorte que les catégories sous-représentées peuvent encore conduire à un apprentissage biaisé.

Une application réelle de l'augmentation des données d'image

Une application intéressante de l'augmentation des données d'image est la conduite automobile autonome, où les décisions prises en une fraction de seconde par des modèles de vision artificielle tels que YOLO11 sont cruciales. Le modèle doit être capable de détecter avec précision les routes, les personnes et d'autres objets.

Cependant, les conditions réelles que rencontre un véhicule autopiloté peuvent être imprévisibles. Le mauvais temps, le flou de mouvement et les signes cachés peuvent rendre complexes les solutions d'IA de vision dans ce secteur. L'entraînement des modèles de vision par ordinateur à l'aide de simples images du monde réel n'est souvent pas suffisant. Les ensembles de données d'images pour les modèles des voitures autonomes doivent être diversifiés afin que le modèle puisse apprendre à gérer des situations inattendues.

L'augmentation des données d'images résout ce problème en simulant le brouillard, en ajustant la luminosité et en déformant les formes. Ces modifications aident les modèles à reconnaître les objets dans différentes conditions. Les modèles deviennent ainsi plus intelligents et plus fiables. 

Grâce à une formation renforcée, les solutions Vision AI dans les voitures autonomes s'adaptent mieux et prennent des décisions plus sûres. Des résultats plus précis se traduisent par une diminution des accidents et une amélioration de la navigation. 

__wf_reserved_inherit
Fig. 5. Exemple d'augmentation des données d'images dans le cadre de la conduite autonome.

Les voitures autonomes n'en sont qu'un exemple. En fait, l'augmentation des données d'image est cruciale dans un large éventail de secteurs, de l'imagerie médicale à l'analyse du commerce de détail. Toute application reposant sur la vision par ordinateur peut potentiellement bénéficier de l'augmentation des données d'image.

Principaux enseignements

Les systèmes d'IA visuelle doivent être capables de reconnaître des objets dans différentes conditions, mais il peut s'avérer difficile de collecter un nombre infini d'images du monde réel pour l'entraînement. L'augmentation des données d'images résout ce problème en créant des variations d'images existantes, ce qui permet aux modèles d'apprendre plus rapidement et d'être plus performants dans des situations réelles. Elle améliore la précision, en veillant à ce que les modèles d'IA visuelle tels que YOLO11 puissent gérer des éclairages, des angles et des environnements différents.

Pour les entreprises et les développeurs, l'augmentation des données d'image permet d'économiser du temps et des efforts tout en rendant les modèles de vision par ordinateur plus fiables. Des soins de santé aux voitures autonomes, de nombreux secteurs en dépendent. À mesure que l'IA de vision évolue, l'augmentation continuera d'être un élément essentiel de la construction de modèles plus intelligents et plus adaptables pour l'avenir.

Rejoignez notre communauté et visitez notre dépôt GitHub pour voir l'IA en action. Explorez nos options de licence et découvrez l'IA dans l'agriculture et la vision par ordinateur dans la fabrication sur nos pages de solutions.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers