En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez ce qu'est le surapprentissage en vision par ordinateur et comment l'éviter grâce à l'augmentation des données, à la régularisation et aux modèles pré-entraînés.
Les modèles de vision par ordinateur sont conçus pour reconnaître des modèles, detect objets et analyser des images. Cependant, leurs performances dépendent de leur capacité à se généraliser à des données non vues. La généralisation est la capacité du modèle à fonctionner correctement sur de nouvelles images, et pas seulement sur celles sur lesquelles il a été entraîné. Un problème courant dans la formation de ces modèles est l'ajustement excessif, dans lequel un modèle apprend trop de ses données de formation, y compris des bruits inutiles, au lieu d'identifier des modèles significatifs.
Lorsque cela se produit, le modèle fonctionne bien sur les données d'entraînement, mais a du mal avec les nouvelles images. Par exemple, un modèle de détection d'objets entraîné uniquement sur des images haute résolution et bien éclairées peut échouer lorsqu'il est confronté à des images floues ou ombragées dans des conditions réelles. Le surapprentissage limite l'adaptabilité d'un modèle, ce qui limite son utilisation dans des applications réelles telles que la conduite autonome, l'imagerie médicale et les systèmes de sécurité.
Dans cet article, nous verrons ce qu'est l'overfitting, pourquoi il se produit et comment l'éviter. Nous verrons également comment les modèles de vision artificielle comme Ultralytics YOLO11 permettent de réduire l'overfitting et d'améliorer la généralisation.
Qu'est-ce que le surapprentissage ?
Le surapprentissage se produit lorsqu'un modèle mémorise les données d'entraînement au lieu d'apprendre des schémas qui s'appliquent largement aux nouvelles entrées. Le modèle se concentre trop sur les données d'entraînement, de sorte qu'il a des difficultés avec les nouvelles images ou les situations qu'il n'a jamais vues auparavant.
En vision par ordinateur, le surapprentissage peut affecter différentes tâches. Un modèle de classification entraîné uniquement sur des images claires et lumineuses peut avoir des difficultés dans des conditions de faible luminosité. Un modèle de détection d'objets qui apprend à partir d'images parfaites peut échouer dans des scènes encombrées ou désordonnées. De même, un modèle de segmentation d'instances peut bien fonctionner dans des environnements contrôlés, mais avoir des difficultés avec les ombres ou les objets qui se chevauchent.
Cela devient un problème dans les applications d'IA du monde réel, où les modèles doivent être capables de se généraliser au-delà des conditions d'entraînement contrôlées. Les voitures autonomes, par exemple, doivent être capables de detect piétons dans des conditions d'éclairage, de météo et d'environnement différentes. Un modèle qui s'adapte trop à son ensemble de formation ne sera pas fiable dans des scénarios aussi imprévisibles.
Quand et pourquoi le surapprentissage se produit-il ?
Le surapprentissage se produit généralement en raison d'ensembles de données déséquilibrés, d'une complexité excessive du modèle et d'un surentraînement. Voici les principales causes :
Données d'apprentissage limitées: Les petits ensembles de données amènent les modèles à mémoriser des modèles plutôt qu'à les généraliser. Un modèle formé sur seulement 50 images d'oiseaux peut avoir du mal à detect espèces d'oiseaux en dehors de cet ensemble de données.
Modèles complexes avec trop de paramètres : Les réseaux profonds avec un nombre excessif de couches et de neurones ont tendance à mémoriser les détails fins plutôt qu'à se concentrer sur les caractéristiques essentielles.
Manque d'augmentation de données : Sans transformations telles que le recadrage, le retournement ou la rotation, un modèle peut n'apprendre qu'à partir de ses images d'entraînement exactes.
Entraînement prolongé : Si un modèle parcourt les données d'entraînement trop de fois, ce que l'on appelle des époques, il mémorise les détails au lieu d'apprendre les schémas généraux, ce qui le rend moins adaptable.
Étiquettes incohérentes ou bruitées : Des données incorrectement étiquetées amènent un modèle à apprendre les mauvais schémas. Ceci est courant dans les ensembles de données étiquetés manuellement.
Une approche équilibrée de la complexité du modèle, de la qualité des données et des techniques d'entraînement garantit une meilleure généralisation.
Surapprentissage vs. sous-apprentissage
Le surapprentissage et le sous-apprentissage sont deux problèmes complètement opposés dans l'apprentissage profond.
Fig 1. Comparaison du sous-apprentissage, de l'apprentissage optimal et du surapprentissage dans les modèles de vision par ordinateur.
Le surapprentissage se produit lorsqu'un modèle est trop complexe, ce qui le rend excessivement axé sur les données d'entraînement.Au lieu d'apprendre des schémas généraux, il mémorise de petits détails, même ceux qui ne sont pas pertinents comme le bruit de fond. Cela amène le modèle à bien fonctionner sur les données d'entraînement, mais à avoir des difficultés avec les nouvelles images, ce qui signifie qu'il n'a pas vraiment appris à reconnaître les schémas qui s'appliquent dans différentes situations.
Le sous-apprentissage se produit lorsqu'un modèle est trop basique et qu'il ne détecte pas les schémas importants dans les données. Cela peut se produire lorsque le modèle a trop peu de couches, pas assez de temps d'entraînement ou que les données sont limitées. Par conséquent, il ne parvient pas à reconnaître les schémas importants et fait des prédictions inexactes. Cela conduit à de mauvaises performances sur les données d'entraînement et de test, car le modèle n'a pas suffisamment appris pour comprendre correctement la tâche.
Un modèle bien entraîné trouve l'équilibre entre complexité et généralisation. Il doit être suffisamment complexe pour apprendre les schémas pertinents, mais pas au point de mémoriser les données au lieu de reconnaître les relations sous-jacentes.
Comment identifier le surapprentissage
Voici quelques signes indiquant qu'un modèle est en situation de surapprentissage :
Si la précision de l'entraînement est significativement plus élevée que la précision de la validation, le modèle est susceptible de surapprendre.
Un écart croissant entre la perte d'entraînement et la perte de validation est un autre indicateur fort.
Le modèle est trop confiant dans les mauvaises réponses, ce qui montre qu'il a mémorisé des détails au lieu de comprendre des schémas.
Pour garantir qu'un modèle se généralise bien, il doit être testé sur des ensembles de données diversifiés qui reflètent les conditions du monde réel.
Comment prévenir le surapprentissage en vision par ordinateur
Le surapprentissage n'est pas inévitable et peut être évité. Avec les bonnes techniques, les modèles de vision par ordinateur peuvent apprendre des schémas généraux au lieu de mémoriser les données d'entraînement, ce qui les rend plus fiables dans les applications du monde réel.
Voici cinq stratégies clés pour prévenir le surapprentissage en vision par ordinateur.
Augmenter la diversité des données avec l'augmentation et les données synthétiques
La meilleure façon d'aider un modèle à bien fonctionner sur de nouvelles données est d'étendre l'ensemble de données en utilisant l'augmentation de données et des données synthétiques. Les données synthétiques sont générées par ordinateur au lieu d'être collectées à partir d'images du monde réel. Elles aident à combler les lacunes lorsqu'il n'y a pas assez de données réelles.
Fig 2. La combinaison de données réelles et synthétiques réduit le surapprentissage et améliore la précision de la détection d'objets.
L’augmentation des données modifie légèrement les images existantes en les retournant, en les faisant pivoter, en les recadrant ou en ajustant la luminosité, de sorte que le modèle ne se contente pas de mémoriser les détails, mais apprend à reconnaître les objets dans différentes situations.
Les données synthétiques sont utiles lorsque les images réelles sont difficiles à obtenir. Par exemple, les modèles de voitures autonomes peuvent s'entraîner sur des scènes de route générées par ordinateur pour apprendre à detect objets dans des conditions météorologiques et d'éclairage différentes. Le modèle devient ainsi plus souple et plus fiable, sans avoir besoin de milliers d'images réelles.
Optimiser la complexité et l'architecture du modèle
Un réseau de neurones profond, qui est un type de modèle d'apprentissage automatique comportant de nombreuses couches qui traitent les données au lieu d'une seule couche, n'est pas toujours meilleur. Lorsqu'un modèle a trop de couches ou de paramètres, il mémorise les données d'entraînement au lieu de reconnaître des schémas plus larges. Réduire la complexité inutile peut aider à prévenir le surapprentissage.
Pour ce faire, une approche consiste à utiliser l'élagage, qui supprime les neurones et les connexions redondants, rendant le modèle plus léger et plus efficace.
Une autre solution consiste à simplifier l'architecture en réduisant le nombre de couches ou de neurones. Les modèles pré-entraînés comme YOLO11 sont conçus pour bien se généraliser à travers les tâches avec moins de paramètres, ce qui les rend plus résistants à l'overfitting que l'entraînement d'un modèle profond à partir de zéro.
Trouver le juste équilibre entre la profondeur et l'efficacité du modèle l'aide à apprendre des schémas utiles sans simplement mémoriser les données d'entraînement.
Appliquer des techniques de régularisation
Les techniques de régularisation empêchent les modèles de devenir trop dépendants de caractéristiques spécifiques dans les données d'entraînement. Voici quelques techniques couramment utilisées :
Dropout désactive des parties aléatoires du modèle pendant l'entraînement afin qu'il apprenne à reconnaître différents schémas au lieu de trop s'appuyer sur quelques caractéristiques.
La décroissance du poids (régularisation L2) décourage les valeurs de poids extrêmes, maintenant la complexité du modèle sous contrôle.
La normalisation par lots contribue à stabiliser l'entraînement en garantissant que le modèle est moins sensible aux variations de l'ensemble de données.
Ces techniques aident à maintenir la flexibilité et l'adaptabilité d'un modèle, réduisant ainsi le risque de surapprentissage tout en préservant la précision.
Surveiller l'entraînement avec validation et arrêt précoce
Pour éviter le surajustement, il est important de track façon dont le modèle apprend et de s'assurer qu'il se généralise bien à de nouvelles données. Voici quelques techniques pour y parvenir :
Arrêt précoce : Met automatiquement fin à l'entraînement lorsque le modèle cesse de s'améliorer, afin qu'il n'apprenne pas des détails inutiles.
Validation croisée : Divise les données en plusieurs parties et entraîne le modèle sur chacune d'elles. Cela l'aide à apprendre des modèles au lieu de mémoriser des images spécifiques.
Ces techniques aident le modèle à rester équilibré afin qu'il apprenne suffisamment pour être précis sans trop se concentrer sur les seules données d'entraînement.
Utilisez des modèles pré-entraînés et améliorez l'étiquetage des ensembles de données
Plutôt que de former des modèles à partir de zéro, l'utilisation de modèles préformés comme YOLO11 peut réduire l'ajustement excessif. YOLO11 a été formé sur des ensembles de données à grande échelle, ce qui lui permet de bien se généraliser dans différentes conditions.
Fig 3. Les modèles de vision par ordinateur pré-entraînés améliorent la précision et empêchent le surapprentissage.
L'affinage d'un modèle pré-entraîné l'aide à conserver ce qu'il sait déjà tout en apprenant de nouvelles tâches, de sorte qu'il ne se contente pas de mémoriser les données d'entraînement.
De plus, il est essentiel de garantir un étiquetage de haute qualité des jeux de données. Des données mal étiquetées ou déséquilibrées peuvent induire les modèles en erreur et leur faire apprendre des schémas incorrects. Le nettoyage des jeux de données, la correction des images mal étiquetées et l'équilibrage des classes améliorent la précision et réduisent le risque de surapprentissage. Une autre approche efficace est l'entraînement adversarial, où le modèle est exposé à des exemples légèrement modifiés ou plus difficiles conçus pour tester ses limites.
Principaux points à retenir
Le surajustement est un problème courant dans le domaine de la vision artificielle. Un modèle peut fonctionner correctement sur des données d'entraînement, mais s'avérer difficile à utiliser avec des images réelles. Pour éviter ce problème, des techniques telles que l'augmentation des données, la régularisation et l'utilisation de modèles pré-entraînés comme YOLO11 permettent d'améliorer la précision et l'adaptabilité.
En appliquant ces méthodes, les modèles d'IA peuvent rester fiables et performants dans différents environnements. À mesure que l'apprentissage profond s'améliore, s'assurer que les modèles se généralisent correctement sera essentiel pour le succès de l'IA dans le monde réel.