Augmentation des données : Le guide ultime pour 2025

En raison de l'essor de l'IA, des phénomènes tels que les robots travaillant dans les usines et les voitures autonomes circulant dans les rues font plus souvent les gros titres. L'IA change la façon dont les machines interagissent avec le monde, de l'amélioration de l'imagerie médicale à l'aide au contrôle de la qualité sur les chaînes de production.

Une grande partie de ces progrès provient de la vision artificielle, une branche de l'IA qui permet aux machines de comprendre et d'interpréter les images. Tout comme les humains apprennent à reconnaître des objets et des modèles au fil du temps, les modèles d'IA de vision comme Ultralytics YOLO11 doivent être entraînés sur de grandes quantités de données d'images pour développer leur compréhension visuelle.

Cependant, la collecte d'une telle quantité de données visuelles n'est pas toujours facile. Même si la communauté de la vision par ordinateur a créé de nombreux grands ensembles de données, ils peuvent encore manquer certaines variations, comme des images avec des objets faiblement éclairés, des éléments partiellement cachés ou des choses vues sous différents angles. Ces différences peuvent être déroutantes pour les modèles de vision par ordinateur qui n'ont été entraînés que dans des conditions spécifiques.

L'augmentation de données d'images est une technique qui résout ce problème en introduisant de nouvelles variations dans les données existantes. En modifiant les images, par exemple en ajustant les couleurs, en effectuant des rotations ou en modifiant la perspective, l'ensemble de données devient plus diversifié, ce qui aide les modèles de Vision IA à mieux reconnaître les objets dans des situations réelles.

Dans cet article, nous allons explorer comment fonctionne l'augmentation des données d'image et l'impact qu'elle peut avoir sur les applications de vision par ordinateur.

Qu'est-ce que l'augmentation de données d'images ?

Imaginez que vous essayez de reconnaître un ami dans une foule, mais qu'il porte des lunettes de soleil ou qu'il se tient dans un endroit ombragé. Même avec ces changements mineurs d'apparence, vous savez toujours qui il est. En revanche, un modèle de vision artificielle peut avoir du mal à gérer de telles variations, à moins qu'il n'ait été entraîné à reconnaître des objets dans différents contextes.

L'augmentation des données d'images améliore les performances du modèle de vision par ordinateur en ajoutant des versions modifiées des images existantes aux données d'entraînement, au lieu de collecter des milliers de nouvelles images.

Les modifications apportées aux images, telles que le retournement, la rotation, le réglage de la luminosité ou l'ajout de petites distorsions, exposent les modèles de Vision IA à un plus large éventail de conditions. Au lieu de s'appuyer sur des ensembles de données massifs, les modèles peuvent apprendre efficacement à partir d'ensembles de données d'entraînement plus petits avec des images augmentées.

__wf_reserved_inherit — Fig 1. Exemples d'images augmentées d'une voiture.

‍

L'importance de l'augmentation des données dans la vision par ordinateur

Voici quelques-unes des principales raisons pour lesquelles l'augmentation de données est essentielle pour la vision par ordinateur :

Réduit les besoins en données : La collecte de grands ensembles de données d'images nécessite du temps et des ressources. L'augmentation de données peut être utilisée pour entraîner efficacement les modèles sans avoir besoin d'ensembles de données massifs.
‍
Empêche le surapprentissage : Un modèle entraîné sur trop peu d’exemples peut mémoriser des détails au lieu de reconnaître des modèles généraux. L’ajout de variété par l’augmentation garantit que les modèles de Vision IA apprennent d’une manière qui s’applique aux données nouvelles et invisibles.
Imite les images imparfaites : Les images dans les ensembles de données sont souvent trop parfaites, mais les photos du monde réel peuvent être floues, masquées ou déformées. L'augmentation des images avec du bruit, des occlusions ou d'autres variations les rend plus réalistes.
‍
Améliore la robustesse du modèle : L'entraînement avec une variété d'images aide l'IA à gérer les changements du monde réel, la rendant plus fiable dans différents environnements, conditions d'éclairage et situations.

Quand devriez-vous utiliser l'augmentation de données d'images ?

L'augmentation des données d'images est particulièrement utile lorsqu'un modèle de vision par ordinateur doit reconnaître des objets dans différentes situations, mais ne dispose pas d'un nombre suffisant d'images variées.

Par exemple, si les chercheurs forment un modèle d'IA de vision pour identifier des espèces sous-marines rares qui sont rarement photographiées, l'ensemble de données peut être petit ou manquer de variation. En augmentant les images - en ajustant les couleurs pour simuler différentes profondeurs d'eau, en ajoutant du bruit pour imiter des conditions troubles ou en modifiant légèrement les formes pour tenir compte des mouvements naturels - le modèle peut apprendre à detect objets sous-marins avec plus de précision.

Voici d'autres situations où l'augmentation de données fait une grande différence :

Équilibrage de l'ensemble de données : Certains objets peuvent apparaître moins souvent dans les données d'entraînement, ce qui biaise les modèles de Vision IA. L'augmentation aide à créer davantage d'exemples d'objets rares afin que le modèle puisse reconnaître équitablement toutes les catégories.
‍
Adaptation à différentes caméras : Les images peuvent sembler différentes selon l'appareil. L'augmentation aide les modèles Vision AI à bien fonctionner sur les photos avec différentes résolutions, éclairages et qualités.
‍
Correction des erreurs mineures d'annotation : De légers décalages, recadrages ou rotations aident les modèles de vision par ordinateur à reconnaître correctement les objets, même si les annotations d'origine ne sont pas parfaitement alignées.

Fonctionnement de l'augmentation des données d'images

Au début de la vision par ordinateur, l'augmentation des données d'image impliquait principalement des techniques de traitement d'image de base telles que le retournement, la rotation et le recadrage pour accroître la diversité de l'ensemble de données. Au fur et à mesure que l'IA s'est améliorée, des méthodes plus avancées ont été introduites, telles que l'ajustement des couleurs (transformations de l'espace colorimétrique), l'accentuation ou le floutage des images (filtres de noyau) et le mélange de plusieurs images (mélange d'images) pour améliorer l'apprentissage.

L'augmentation peut se produire avant et pendant l'entraînement du modèle. Avant l'entraînement, des images modifiées peuvent être ajoutées à l'ensemble de données pour offrir plus de variété. Pendant l'entraînement, les images peuvent être modifiées aléatoirement en temps réel, ce qui aide les modèles de Vision IA à s'adapter à différentes conditions.

Ces changements sont effectués à l'aide de transformations mathématiques. Par exemple, la rotation incline une image, le recadrage enlève des parties pour imiter différentes vues, et les changements de luminosité simulent des variations d'éclairage. Le flou adoucit les images, la netteté rend les détails plus clairs et le mélange d'images combine des parties de différentes images. Les cadres et outils d'IA de la vision comme OpenCV, TensorFlow et PyTorch peuvent automatiser ces processus, ce qui rend l'augmentation rapide et efficace.

Principales techniques d'augmentation de données d'image

Maintenant que nous avons expliqué ce qu'est l'augmentation des données d'images, examinons de plus près certaines techniques fondamentales d'augmentation des données d'images utilisées pour améliorer les données d'entraînement.

Ajustement de l'orientation et de la position

Les modèles de vision artificielle comme YOLO11 doivent souvent reconnaître des objets sous différents angles et points de vue. Pour ce faire, les images peuvent être retournées horizontalement ou verticalement afin que le modèle d'IA apprenne à reconnaître les objets à partir de différents points de vue.

De même, la rotation des images modifie légèrement leur angle, ce qui permet au modèle d'identifier les objets sous plusieurs perspectives. De plus, le déplacement des images dans différentes directions (translation) aide les modèles à s'adapter aux petits changements de position. Ces transformations garantissent que les modèles se généralisent mieux aux conditions du monde réel où le placement des objets dans une image est imprévisible.

‍

Redimensionnement et recadrage

En ce qui concerne les solutions de vision par ordinateur dans le monde réel, les objets dans les images peuvent apparaître à des distances et des tailles variables. Les modèles de vision artificielle doivent être suffisamment robustes pour les detect quelles que soient ces différences.

Pour améliorer l'adaptabilité, les méthodes d'augmentation suivantes peuvent être utilisées :

Mise à l'échelle: Le redimensionnement modifie la taille de l'image tout en conservant ses proportions, ce qui permet aux modèles d'IA de detect objets à différentes distances.
‍
Recadrage : Cette technique supprime les parties inutiles d'une image, ce qui aide le modèle à se concentrer sur les zones clés et réduit les distractions liées à l'arrière-plan.
‍
Cisaillement : le fait d’incliner légèrement une image simule une apparence penchée ou étirée, ce qui aide l’IA à reconnaître les objets sous différents angles.

Ces ajustements aident les modèles de vision par ordinateur à reconnaître les objets même si leur taille ou leur forme change légèrement.

Ajustements de perspective et de distorsion

Les objets dans les images peuvent apparaître différemment selon l'angle de la caméra, ce qui rend la reconnaissance difficile pour les modèles de vision par ordinateur. Pour aider les modèles à gérer ces variations, les techniques d'augmentation peuvent ajuster la façon dont les objets sont présentés dans les images.

Par exemple, les transformations de perspective peuvent modifier l'angle de vue, donnant l'impression qu'un objet est vu d'une position différente. Cela permet aux modèles de Vision IA de reconnaître les objets même lorsqu'ils sont inclinés ou capturés d'un point de vue inhabituel.

Un autre exemple est une transformation élastique qui étire, plie ou déforme les images pour simuler des distorsions naturelles, de sorte que les objets apparaissent tels qu'ils le feraient dans des reflets ou sous pression.

Modifications de la couleur et de l'éclairage

Les conditions d'éclairage et les différences de couleur peuvent avoir un impact significatif sur la façon dont les modèles d'IA de vision interprètent les images. Étant donné que les objets peuvent apparaître différemment selon les paramètres d'éclairage, les techniques d'augmentation suivantes peuvent aider à gérer ces situations :

Ajustements de luminosité et de contraste : La simulation de différentes conditions d'éclairage aide les modèles de Vision IA à reconnaître les objets dans des environnements lumineux et sombres.
‍
Gigue de couleur : La modification aléatoire de la teinte, de la saturation et de la balance des couleurs rend les modèles de vision par ordinateur plus adaptables aux différentes caméras et conditions d'éclairage.
‍
Conversion en niveaux de gris : La conversion d'images en noir et blanc encourage les modèles de Vision IA à se concentrer sur les formes et les textures plutôt que sur la couleur.

‍

Techniques avancées d'augmentation des données d'image

Jusqu'à présent, nous n'avons exploré que des techniques d'augmentation qui modifient une seule image. Cependant, certaines méthodes avancées impliquent de combiner plusieurs images pour améliorer l'apprentissage de l'IA.

Par exemple, MixUp mélange deux images, ce qui permet aux modèles de vision artificielle de comprendre les relations entre les objets et d'améliorer leur capacité de généralisation dans différents scénarios. CutMix va plus loin en remplaçant une partie d'une image par une partie d'une autre image, ce qui permet aux modèles d'apprendre à partir de contextes multiples au sein d'une même image. CutOut, quant à lui, fonctionne différemment en supprimant des parties aléatoires d'une image, ce qui permet d'entraîner les modèles de vision artificielle à reconnaître des objets même lorsqu'ils sont partiellement cachés ou obstrués.

‍

Le rôle de l'IA générative dans l'augmentation des données d'image

L'IA générative gagne du terrain dans de nombreux secteurs et applications quotidiennes. Vous l'avez probablement rencontrée en relation avec des images générées par l'IA, des vidéos truquées ou des applications qui créent des avatars réalistes. Mais au-delà de la créativité et du divertissement, l'IA générative joue un rôle crucial dans la formation des modèles de Vision IA en générant de nouvelles images à partir d'images existantes.

Plutôt que de simplement retourner ou faire pivoter des images, il peut créer des variations réalistes - en changeant les expressions faciales, les styles vestimentaires ou même en simulant différentes conditions météorologiques. Ces variations aident les modèles de vision par ordinateur à devenir plus adaptables et précis dans divers scénarios du monde réel. Les modèles d'IA générative avancés tels que les GAN (Generative Adversarial Networks) et les modèles de diffusion peuvent également combler les détails manquants ou créer des images synthétiques de haute qualité.

Limites de l'augmentation des données d'image

Bien que l'augmentation des données améliore les ensembles de données d'entraînement, il existe également certaines limitations à prendre en compte. Voici quelques défis clés liés à l'augmentation des données d'image :

Diversité limitée des données : Les images augmentées proviennent de données existantes et ne peuvent pas introduire de nouveaux modèles ou de perspectives rares.
‍
Distorsion potentielle des données : Des transformations excessives peuvent rendre les images irréalistes, ce qui peut réduire la précision du modèle dans des scénarios réels.
‍
Calcul accru : L'augmentation en temps réel qui a lieu pendant l'entraînement du modèle peut nécessiter une puissance de traitement assez importante, ce qui ralentit l'entraînement et augmente l'utilisation de la mémoire.
‍
Le déséquilibre des classes persiste : L'augmentation ne crée pas d'échantillons entièrement nouveaux, de sorte que les catégories sous-représentées peuvent toujours entraîner un apprentissage biaisé.

Une application concrète de l'augmentation des données d'image

Une application intéressante de l'augmentation des données d'image est la conduite automobile autonome, où les décisions prises en une fraction de seconde par des modèles de vision artificielle tels que YOLO11 sont cruciales. Le modèle doit être capable de detect avec précision detect routes, les personnes et d'autres objets.

Cependant, les conditions réelles qu'un véhicule autonome rencontre peuvent être imprévisibles. Le mauvais temps, le flou de mouvement et les panneaux cachés peuvent rendre les solutions d'IA de vision dans ce secteur complexes. L'entraînement des modèles de vision par ordinateur avec uniquement des images du monde réel n'est souvent pas suffisant. Les ensembles de données d'images pour les modèles dans les voitures autonomes doivent être diversifiés afin que le modèle puisse apprendre à gérer les situations inattendues.

L'augmentation des données d'images résout ce problème en simulant le brouillard, en ajustant la luminosité et en déformant les formes. Ces modifications aident les modèles à reconnaître les objets dans différentes conditions. Par conséquent, les modèles deviennent plus intelligents et plus fiables.

Grâce à la formation augmentée, les solutions de vision par l'IA dans les voitures autonomes s'adaptent mieux et prennent des décisions plus sûres. Des résultats plus précis signifient moins d'accidents et une navigation améliorée.

‍

Les voitures autonomes ne sont qu'un exemple. En fait, l'augmentation des données d'image est cruciale dans un large éventail de secteurs, de l'imagerie médicale à l'analyse de vente au détail. Toute application qui repose sur la vision par ordinateur peut potentiellement bénéficier de l'augmentation des données d'image.

Principaux points à retenir

Les systèmes d'IA visuelle doivent être capables de reconnaître des objets dans différentes conditions, mais il peut s'avérer difficile de collecter une infinité d'images du monde réel pour l'entraînement. L'augmentation des données d'images résout ce problème en créant des variations d'images existantes, ce qui permet aux modèles d'apprendre plus rapidement et d'être plus performants dans des situations réelles. Elle améliore la précision, en garantissant que les modèles d'IA visuelle tels que YOLO11 peuvent gérer des éclairages, des angles et des environnements différents.

Pour les entreprises et les développeurs, l'augmentation des données d'image permet de gagner du temps et de l'énergie tout en rendant les modèles de vision par ordinateur plus fiables. De la santé aux voitures autonomes, de nombreuses industries en dépendent. À mesure que la Vision IA continue d'évoluer, l'augmentation continuera d'être un élément essentiel de la construction de modèles plus intelligents et plus adaptables pour l'avenir.

Rejoignez notre communauté et visitez notre dépôt GitHub pour voir l'IA en action. Explorez nos options de licence et découvrez-en davantage sur l'IA dans l'agriculture et la vision par ordinateur dans l'industrie manufacturière sur nos pages de solutions.

Le guide ultime de l'augmentation de données en 2025

Qu'est-ce que l'augmentation de données d'images ?

L'importance de l'augmentation des données dans la vision par ordinateur

Quand devriez-vous utiliser l'augmentation de données d'images ?

Fonctionnement de l'augmentation des données d'images

Principales techniques d'augmentation de données d'image

Ajustement de l'orientation et de la position

Redimensionnement et recadrage

Ajustements de perspective et de distorsion

Modifications de la couleur et de l'éclairage

Techniques avancées d'augmentation des données d'image

Le rôle de l'IA générative dans l'augmentation des données d'image

Limites de l'augmentation des données d'image

Une application concrète de l'augmentation des données d'image

Principaux points à retenir

En savoir plus dans cette catégorie

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Qu'est-ce que l'informatique visuelle ? Une brève introduction

Qu'est-ce que la reconnaissance de formes ? Guide rapide

Construisons ensemble l'avenir
de l'IA !

Le guide ultime de l'augmentation de données en 2025

Qu'est-ce que l'augmentation de données d'images ?

L'importance de l'augmentation des données dans la vision par ordinateur

Quand devriez-vous utiliser l'augmentation de données d'images ?

Fonctionnement de l'augmentation des données d'images

Principales techniques d'augmentation de données d'image

Ajustement de l'orientation et de la position

Redimensionnement et recadrage

Ajustements de perspective et de distorsion

Modifications de la couleur et de l'éclairage

Techniques avancées d'augmentation des données d'image

Le rôle de l'IA générative dans l'augmentation des données d'image

Limites de l'augmentation des données d'image

Une application concrète de l'augmentation des données d'image

Principaux points à retenir

En savoir plus dans cette catégorie

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Qu'est-ce que l'informatique visuelle ? Une brève introduction

Qu'est-ce que la reconnaissance de formes ? Guide rapide

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !