En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Apprenez ce qu'est le surajustement dans le domaine de la vision par ordinateur et comment l'éviter en utilisant l'augmentation des données, la régularisation et les modèles pré-entraînés.
Les modèles de vision par ordinateur sont conçus pour reconnaître des modèles, détecter des objets et analyser des images. Cependant, leurs performances dépendent de leur capacité à se généraliser à des données non vues. La généralisation est la capacité du modèle à fonctionner correctement sur de nouvelles images, et pas seulement sur celles sur lesquelles il a été entraîné. Un problème courant dans la formation de ces modèles est l'ajustement excessif, dans lequel un modèle apprend trop de ses données de formation, y compris des bruits inutiles, au lieu d'identifier des modèles significatifs.
Dans ce cas, le modèle donne de bons résultats sur les données d'apprentissage, mais se heurte à des difficultés avec les nouvelles images. Par exemple, un modèle de détection d'objets entraîné uniquement sur des images haute résolution et bien éclairées peut échouer lorsqu'il est confronté à des images floues ou ombrées dans des conditions réelles. Le surajustement limite l'adaptabilité d'un modèle, ce qui restreint son utilisation dans des applications réelles telles que la conduite autonome, l'imagerie médicale et les systèmes de sécurité.
Dans cet article, nous verrons ce qu'est l'overfitting, pourquoi il se produit et comment l'éviter. Nous verrons également comment les modèles de vision artificielle comme Ultralytics YOLO11 permettent de réduire l'overfitting et d'améliorer la généralisation.
Qu'est-ce que l'overfitting ?
Il y a surajustement lorsqu'un modèle mémorise des données d'apprentissage au lieu d'apprendre des modèles qui s'appliquent largement à de nouvelles données. Le modèle se concentre trop sur les données d'apprentissage et éprouve des difficultés avec les nouvelles images ou situations qu'il n'a jamais vues auparavant.
Dans le domaine de la vision par ordinateur, le surajustement peut affecter différentes tâches. Un modèle de classification formé uniquement sur des images claires et lumineuses peut s'avérer difficile à utiliser dans des conditions de faible luminosité. Un modèle de détection d'objets qui apprend à partir d'images parfaites peut échouer dans des scènes encombrées ou désordonnées. De même, un modèle de segmentation d'instance peut fonctionner correctement dans des environnements contrôlés, mais avoir des difficultés avec les ombres ou les objets qui se chevauchent.
Cela devient un problème dans les applications d'IA du monde réel, où les modèles doivent être capables de se généraliser au-delà des conditions d'entraînement contrôlées. Les voitures auto-conduites, par exemple, doivent pouvoir détecter les piétons dans des conditions d'éclairage, de météo et d'environnement différentes. Un modèle qui s'adapte trop à son ensemble de formation ne sera pas fiable dans des scénarios aussi imprévisibles.
Quand et pourquoi un surajustement se produit-il ?
Le surajustement est généralement dû à des ensembles de données déséquilibrés, à une complexité excessive du modèle et à un surentraînement. En voici les principales causes :
Données d'apprentissage limitées: Les petits ensembles de données amènent les modèles à mémoriser des modèles plutôt qu'à les généraliser. Un modèle entraîné sur seulement 50 images d'oiseaux peut avoir du mal à détecter des espèces d'oiseaux en dehors de cet ensemble de données.
Modèles complexes avec trop de paramètres: Les réseaux profonds comportant un nombre excessif de couches et de neurones ont tendance à mémoriser les détails les plus fins au lieu de se concentrer sur les caractéristiques essentielles.
Absence de d'augmentation des données: Sans transformations telles que le recadrage, le retournement ou la rotation, un modèle ne peut apprendre qu'à partir de ses images d'apprentissage exactes.
Formation prolongée: Si un modèle passe en revue les données d'apprentissage un trop grand nombre de fois, appelées époques, il mémorise des détails au lieu d'apprendre des modèles généraux, ce qui le rend moins adaptable.
Étiquettes incohérentes ou bruyantes: Des données mal étiquetées permettent à un modèle d'apprendre des modèles erronés. Cette situation est fréquente dans les ensembles de données étiquetés manuellement.
Une approche équilibrée de la complexité des modèles, de la qualité des données et des techniques de formation garantit une meilleure généralisation.
Surajustement et sous-ajustement
L'overfitting et l'underfitting sont deux problèmes complètement opposés dans le domaine de l'apprentissage profond.
Fig. 1. Comparaison de l'ajustement insuffisant, de l'apprentissage optimal et de l'ajustement excessif dans les modèles de vision par ordinateur.
Il y a surajustement lorsqu'un modèle est trop complexe, ce qui le rend trop axé sur les données d'apprentissage.Au lieu d'apprendre des modèles généraux, il mémorise de petits détails, même ceux qui ne sont pas pertinents, comme le bruit de fond. Le modèle obtient alors de bons résultats sur les données d'entraînement, mais éprouve des difficultés avec les nouvelles images, ce qui signifie qu'il n'a pas vraiment appris à reconnaître les modèles qui s'appliquent à différentes situations.
Il y a sous-ajustement lorsqu'un modèle est trop basique et qu'il ne tient pas compte des schémas importants dans les données. Cela peut se produire lorsque le modèle comporte trop peu de couches, que le temps d'apprentissage est insuffisant ou que les données sont limitées. Par conséquent, il ne reconnaît pas les schémas importants et fait des prédictions inexactes. Il en résulte des performances médiocres sur les données de formation et de test, car le modèle n'a pas suffisamment appris pour comprendre correctement la tâche.
Un modèle bien entraîné trouve l'équilibre entre la complexité et la généralisation. Il doit être suffisamment complexe pour apprendre des modèles pertinents, mais pas au point de mémoriser les données au lieu de reconnaître les relations sous-jacentes.
Comment identifier le surajustement
Voici quelques signes indiquant qu'un modèle est surajusté :
Si la précision d'apprentissage est significativement plus élevée que la précision de validation, le modèle est probablement surajusté.
Un écart croissant entre la perte d'entraînement et la perte de validation est un autre indicateur fort.
Le modèle est trop confiant dans les mauvaises réponses, ce qui montre qu'il a mémorisé des détails au lieu de comprendre des modèles.
Pour s'assurer qu'un modèle se généralise bien, il doit être testé sur divers ensembles de données reflétant les conditions du monde réel.
Comment éviter le surajustement dans le domaine de la vision par ordinateur
Le surajustement n'est pas inévitable et peut être évité. Avec les bonnes techniques, les modèles de vision artificielle peuvent apprendre des modèles généraux au lieu de mémoriser des données d'apprentissage, ce qui les rend plus fiables dans les applications du monde réel.
Voici cinq stratégies clés pour éviter le surajustement dans le domaine de la vision par ordinateur.
Augmenter la diversité des données grâce à l'augmentation et aux données synthétiques
La meilleure façon d'aider un modèle à bien fonctionner sur de nouvelles données est d'élargir l'ensemble de données en utilisant l'augmentation des données et les données synthétiques. Les données synthétiques sont générées par ordinateur au lieu d'être collectées à partir d'images réelles. Elles permettent de combler les lacunes lorsqu'il n'y a pas assez de données réelles.
Fig. 2. La combinaison de données réelles et synthétiques réduit l'ajustement excessif et améliore la précision de la détection des objets.
L'augmentation des données modifie légèrement les images existantes en les retournant, en les faisant pivoter, en les recadrant ou en ajustant la luminosité, de sorte que le modèle ne se contente pas de mémoriser des détails, mais apprend à reconnaître des objets dans des situations différentes.
Les données synthétiques sont utiles lorsque les images réelles sont difficiles à obtenir. Par exemple, les modèles de voitures autonomes peuvent s'entraîner sur des scènes de route générées par ordinateur pour apprendre à détecter des objets dans des conditions météorologiques et d'éclairage différentes. Le modèle devient ainsi plus souple et plus fiable, sans avoir besoin de milliers d'images réelles.
Optimiser la complexité et l'architecture du modèle
Un réseau neuronal profond, qui est un type de modèle d'apprentissage automatique comportant de nombreuses couches qui traitent les données au lieu d'une seule couche, n'est pas toujours meilleur. Lorsqu'un modèle comporte trop de couches ou de paramètres, il mémorise les données d'apprentissage au lieu de reconnaître des modèles plus larges. La réduction de la complexité inutile peut aider à prévenir l'adaptation excessive.
Pour y parvenir, l'une des approches est l'élagage, qui supprime les neurones et les connexions redondants, ce qui rend le modèle plus léger et plus efficace.
Une autre solution consiste à simplifier l'architecture en réduisant le nombre de couches ou de neurones. Les modèles pré-entraînés comme YOLO11 sont conçus pour bien se généraliser à travers les tâches avec moins de paramètres, ce qui les rend plus résistants à l'overfitting que l'entraînement d'un modèle profond à partir de zéro.
Trouver le bon équilibre entre la profondeur et l'efficacité du modèle permet d'apprendre des modèles utiles sans se contenter de mémoriser les données d'apprentissage.
Appliquer des techniques de régularisation
Les techniques de régularisation empêchent les modèles de devenir trop dépendants de caractéristiques spécifiques dans les données d'apprentissage. Voici quelques techniques couramment utilisées :
L'exclusion dés active des parties aléatoires du modèle au cours de la formation afin qu'il apprenne à reconnaître différents modèles au lieu de trop se fier à quelques caractéristiques.
La décroissance des poids (régularisation L2) décourage les valeurs de poids extrêmes, ce qui permet de maîtriser la complexité du modèle.
La normalisation des lots permet de stabiliser la formation en veillant à ce que le modèle soit moins sensible aux variations de l'ensemble de données.
Ces techniques permettent de maintenir la flexibilité et l'adaptabilité d'un modèle, réduisant ainsi le risque de surajustement tout en préservant la précision.
Contrôler la formation par la validation et l'arrêt précoce
Pour éviter le surajustement, il est important de suivre la façon dont le modèle apprend et de s'assurer qu'il se généralise bien à de nouvelles données. Voici quelques techniques pour y parvenir :
Arrêt précoce: Arrête automatiquement la formation lorsque le modèle cesse de s'améliorer, afin qu'il ne continue pas à apprendre des détails inutiles.
Validation croisée: Divise les données en plusieurs parties et entraîne le modèle sur chacune d'entre elles. Cela lui permet d'apprendre des modèles au lieu de mémoriser des images spécifiques.
Ces techniques aident le modèle à rester équilibré, de sorte qu'il apprend suffisamment pour être précis sans devenir trop concentré sur les seules données d'apprentissage.
Utiliser des modèles pré-entraînés et améliorer l'étiquetage des ensembles de données
Au lieu d'une formation à partir de zéro, l'utilisation de modèles préformés comme YOLO11 permet de réduire l'ajustement excessif. YOLO11 a été formé sur des ensembles de données à grande échelle, ce qui lui permet de bien se généraliser dans différentes conditions.
Fig. 3. Les modèles de vision artificielle pré-entraînés améliorent la précision et évitent l'ajustement excessif.
La mise au point d'un modèle pré-entraîné l'aide à conserver ce qu'il sait déjà lors de l'apprentissage de nouvelles tâches, de sorte qu'il ne se contente pas de mémoriser les données d'entraînement.
En outre, il est essentiel de garantir un étiquetage de haute qualité des ensembles de données. Des données mal étiquetées ou déséquilibrées peuvent induire les modèles en erreur et les amener à apprendre des schémas incorrects. Le nettoyage des ensembles de données, la correction des images mal étiquetées et l'équilibrage des classes améliorent la précision et réduisent le risque de surajustement. Une autre approche efficace est l'entraînement contradictoire, où le modèle est exposé à des exemples légèrement modifiés ou plus difficiles, conçus pour tester ses limites.
Principaux enseignements
Le surajustement est un problème courant dans le domaine de la vision artificielle. Un modèle peut fonctionner correctement sur des données d'entraînement, mais s'avérer difficile à utiliser avec des images réelles. Pour éviter ce problème, des techniques telles que l'augmentation des données, la régularisation et l'utilisation de modèles pré-entraînés comme YOLO11 permettent d'améliorer la précision et l'adaptabilité.
En appliquant ces méthodes, les modèles d'IA peuvent rester fiables et performants dans différents environnements. À mesure que l'apprentissage profond s'améliore, s'assurer que les modèles se généralisent correctement sera la clé du succès de l'IA dans le monde réel.
Comment identifier le surajustement
Voici quelques signes indiquant qu'un modèle est surajusté :
Pour s'assurer qu'un modèle se généralise bien, il doit être testé sur divers ensembles de données reflétant les conditions du monde réel.