Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Comment améliorer mAP du modèle mAP les petits objets : guide rapide

Découvrez comment améliorer mAP des modèles mAP les petits objets grâce à des conseils pratiques sur la qualité des données, l'augmentation, les stratégies d'entraînement, l'évaluation et le déploiement.

Avec l'essor continu de l'intelligence artificielle (IA), de l'apprentissage automatique et de la vision par ordinateur, les systèmes de détection d'objets sont désormais utilisés partout, des caméras de surveillance intelligentes aux drones en passant par les outils d'analyse commerciale. Souvent, ces systèmes sont censés detect de toutes tailles, qu'il s'agisse d'un gros camion proche de la caméra ou d'un petit piéton lointain.

En général, repérer des objets volumineux et clairement visibles est plus simple. En revanche, détecter des objets de petite taille est plus difficile.

Lorsqu'un objet n'occupe qu'une infime partie de l'image, les informations visuelles exploitables sont très limitées. Un piéton lointain dans une vidéo de circulation ou un petit véhicule capturé depuis une vue aérienne peuvent ne contenir que quelques pixels, mais ces pixels peuvent contenir des informations cruciales. 

Les modèles de vision par ordinateur tels queYOLO Ultralytics s'appuient sur des modèles visuels pour reconnaître les objets, et lorsque ces modèles sont limités ou peu clairs, les performances en pâtissent. Des détails importants peuvent être perdus lors du traitement, ce qui rend les prédictions plus sensibles aux erreurs de localisation. Même un léger décalage dans un cadre de sélection peut transformer une détection correcte en une détection manquée.

Cette lacune apparaît clairement lorsque l'on examine les performances des modèles. La plupart des modèles de détection et de segmentation traitent bien les objets de taille moyenne et grande, mais les petits objets réduisent souvent la précision globale.

Les performances du deep learning sont généralement mesurées à l'aide de la précision moyenne, ou mAP. Cet indicateur reflète à la fois la précision des détections et la concordance entre les boîtes prédites et les objets réels. 

Il combine la précision, qui indique combien d'objets prédits sont corrects, et le rappel, qui indique combien d'objets réels sont détectés avec succès, à différents niveaux de confiance et seuils d'intersection sur union, ou IoU une mesure qui évalue le degré de chevauchement entre le cadre de sélection prédit et le cadre de référence).

Nous avons précédemment exploré la détection des petits objets et les raisons pour lesquelles elle représente un problème si difficile pour les modèles de vision par ordinateur. Dans cet article, nous allons nous appuyer sur ces bases et nous concentrer sur la manière d'améliorer mAP de petits objets sont impliqués. C'est parti !

Pourquoi les petits objets sont-ils plus difficiles à detect?

Dans les applications impliquant des détecteurs d'objets, un petit objet est défini par l'espace qu'il occupe dans une image, et pas nécessairement par sa taille apparente à l'œil nu. S'il n'occupe qu'une infime partie de l'image, il contient très peu d'informations visuelles, ce qui rend sa detect plus difficile pour un algorithme de vision par ordinateur.

Fig. 1. Exemples d'images montrant de petits objets occupant des zones de pixels limitées (Source)

Avec moins de pixels à traiter, les détails importants tels que les contours, les formes et les textures peuvent être flous ou facilement perdus. Au fur et à mesure que l'image est traitée par le modèle, elle est redimensionnée et simplifiée afin de mettre en évidence les motifs utiles. 

Si cela aide le modèle à comprendre la scène dans son ensemble, cela peut également réduire encore davantage les détails fins. Pour les petits objets, ces détails sont souvent essentiels à une détection correcte.

Ces défis deviennent encore plus évidents lorsque l'on examine les indicateurs d'évaluation. Les petits objets sont particulièrement sensibles aux erreurs de localisation. Même un cadre de sélection légèrement mal aligné peut tomber en dessous du seuil requis d'intersection sur union ( IoU). 

Lorsque cela se produit, une prédiction qui semble raisonnable peut être considérée comme incorrecte. Cela réduit à la fois la précision et le rappel, ce qui finit par réduire la précision moyenne, ou mAP.

Ces facteurs étant étroitement liés, l'amélioration des performances nécessite souvent de prendre en compte l'ensemble du système. Cela implique de trouver le juste équilibre entre la résolution d'image, l'extraction de caractéristiques, la conception du modèle et les paramètres d'évaluation afin de mieux préserver et interpréter les petits détails visuels.

L'importance de la qualité des ensembles de données et des annotations

En matière de détection de petits objets, la qualité d'un ensemble de données fait souvent toute la différence en termes de performances. Les petits objets n'occupent qu'une infime partie d'une image, ce qui signifie que le modèle dispose de très peu d'informations visuelles pour apprendre. C'est pourquoi les données d'entraînement revêtent une importance particulière. Si l'ensemble de données ne comprend pas suffisamment d'exemples clairs et représentatifs, le modèle de détection d'objets aura du mal à reconnaître des schémas cohérents.

Les ensembles de données qui fonctionnent bien pour la détection de petits objets contiennent généralement des images haute résolution, des apparitions fréquentes de petites cibles et des conditions visuelles cohérentes. Si les ensembles de données génériques tels que COCO constituent des points de départ utiles, ils ne correspondent souvent pas à l'échelle, à la densité ou au contexte de cas d'utilisation spécifiques dans le monde réel. Dans de tels cas, il est nécessaire de collecter des données d'entraînement spécifiques au domaine afin d'améliorer les performances du modèle.

La qualité des annotations joue également un rôle essentiel. Les annotations établissent la vérité terrain en spécifiant les étiquettes d'objets correctes et les emplacements des cadres de sélection que le modèle apprend à prédire.

Pour les petits objets, les cadres de sélection doivent être dessinés avec soin et cohérence. Même de légères différences dans le placement des cadres peuvent affecter sensiblement la précision de la localisation, car les petits objets sont très sensibles aux décalages au niveau des pixels.

Des annotations médiocres ou incohérentes peuvent réduire considérablement mAP. Si les objets sont mal étiquetés, le modèle apprend des modèles incorrects, ce qui peut augmenter les faux positifs. 

Si des objets apparaissent dans l'image mais sont absents de la vérité terrain, les détections correctes peuvent être comptabilisées comme des faux positifs lors de l'évaluation. Ces deux situations réduisent les performances globales.

Il est intéressant de noter que des recherches récentes indiquent que la précision moyenne pour les petits objets reste souvent comprise entre 20 % et 40 % sur les benchmarks standard, ce qui est nettement inférieur à celle des objets plus grands. Cet écart souligne l'importance de la conception des ensembles de données et de la cohérence des annotations dans la précision globale de la détection.

L'augmentation des données peut jouer un rôle clé dans l'amélioration de la précision.

Maintenant que nous comprenons mieux l'importance de la qualité des ensembles de données et de la cohérence des annotations, voyons comment un modèle de détection d'objets peut apprendre plus efficacement à partir des données existantes. Même lorsqu'il est difficile ou coûteux de collecter des images supplémentaires, il existe des moyens d'améliorer les performances en exploitant mieux les données déjà disponibles.

L'une des approches les plus pratiques est l'augmentation des données. Elle joue un rôle particulièrement important dans la détection des petits objets, car ceux-ci fournissent moins d'indices visuels à partir desquels le modèle peut apprendre. En introduisant des variations contrôlées pendant l'entraînement, l'augmentation aide le modèle à mieux généraliser sans nécessiter la collecte de nouvelles données.

Une augmentation efficace des données consiste à rendre les petits objets clairement visibles. Des techniques telles que le redimensionnement contrôlé, le recadrage léger et le mosaïquage d'images peuvent permettre de mieux faire ressortir les petits objets tout en préservant leur forme et leur apparence. L'objectif est d'aider le modèle à voir plus souvent les petits objets et dans des conditions légèrement différentes, sans modifier leur apparence dans des situations réelles. 

Cependant, l'augmentation doit être appliquée avec prudence. Certaines transformations peuvent réduire la visibilité des petits objets ou modifier leur apparence d'une manière peu probable dans les données réelles. Lorsque cela se produit, le modèle peut avoir du mal à apprendre les contours précis des objets.

Augmentation plus intelligente des données grâce à l'IA générative

Un autre type intéressant d'augmentation des données qui gagne en popularité est l'utilisation de l'IA générative pour créer des données d'entraînement synthétiques. Au lieu de s'appuyer sur des images collectées et étiquetées manuellement, les équipes peuvent désormais générer des scènes réalistes qui simulent des environnements spécifiques, des tailles d'objets, des conditions d'éclairage et des variations d'arrière-plan.

Fig. 2. Exemple d'images aériennes synthétiques utilisées pour l'augmentation des données (Source)

Cette approche est particulièrement utile pour la détection de petits objets, où il peut être difficile de capturer des exemples concrets de manière cohérente. En contrôlant la manière dont les petits objets apparaissent dans les images synthétiques, par exemple en ajustant leur échelle, leur densité et leur emplacement, il est possible d'exposer les modèles à un éventail plus large de scénarios d'entraînement. 

Lorsqu'elle est combinée avec soin à des données réelles, l'augmentation synthétique peut améliorer la robustesse des modèles, réduire les coûts de collecte de données et favoriser des améliorations de performances plus ciblées.

Choix de formation des modèles pouvant avoir un impact sur mAP des petits objets

Outre la qualité des ensembles de données et la cohérence des annotations, les choix effectués lors de l'entraînement des modèles ont également un impact important sur les performances de détection des petits objets.

Voici quelques-unes des principales stratégies de formation à prendre en considération :

  • Commencez avec des modèles pré-entraînés : un modèle pré-entraîné, tel que Ultralytics , a déjà appris les modèles visuels généraux à partir de grands ensembles de données d'images. Cela constitue un excellent point de départ plutôt que de commencer l'entraînement à partir de zéro, ce qui est particulièrement utile pour détecter de petits objets avec des données limitées.
  • Utilisez stratégiquement l'apprentissage par transfert : l'apprentissage par transfert consiste à adapter un modèle pré-entraîné à votre ensemble de données spécifique. Il aide le modèle à se concentrer sur vos petits objets tout en réduisant le surajustement (mémorisation des données d'entraînement au lieu de l'apprentissage de modèles généraux).
  • Remédier au déséquilibre entre les classes : si les petits objets apparaissent moins fréquemment que les grands, le modèle peut privilégier l'apprentissage des grands objets. Des techniques telles que la pondération des classes ou les stratégies d'échantillonnage permettent de s'assurer que les petits objets ne sont pas ignorés.
  • Ajustez IoU de confiance et IoU : les petits objets sont sensibles aux petites erreurs de localisation. L'ajustement précis de ces seuils permet de mieux évaluer et interpréter les performances des petits objets lors de la validation et de l'inférence.

Considérations relatives à l'architecture des modèles pour la détection de petits objets

Bien que vous puissiez utiliser un modèle général de détection d'objets pour les tâches impliquant des objets de petite taille, il existe également des architectures de modèles spécialement conçues pour améliorer la détection des petits objets. Par exemple, il existe des variantes du modèle P2 de l' Ultralytics YOLOv8 qui sont optimisées pour préserver les détails spatiaux fins.

YOLOv8 les images à plusieurs échelles en les réduisant progressivement à mesure qu'elles progressent dans le réseau. Cela aide le modèle à comprendre la scène dans son ensemble, mais réduit également les détails fins.

Lorsqu'un objet est déjà très petit, des informations visuelles importantes peuvent disparaître au cours de ce processus. La variante P2 Ultralytics YOLOv8 ce problème en utilisant un pas de 2 dans sa pyramide de caractéristiques. 

Une pyramide de caractéristiques est la partie du modèle qui analyse l'image à plusieurs résolutions internes afin de pouvoir detect de différentes tailles. Avec un pas de 2, l'image est réduite plus progressivement à ce stade, ce qui permet de conserver davantage de détails au niveau des pixels d'origine. 

Comme davantage de détails spatiaux sont préservés, les petits objets conservent une structure plus visible au sein du réseau. Cela permet au modèle de localiser et de detect plus facilement detect qui n'occupent que quelques pixels, ce qui peut contribuer à améliorer mAP des petits objets.

Évaluation tenant compte de la taille pour la détection de petits objets

Si la précision moyenne résume les performances globales du modèle, elle ne montre pas toujours dans quelle mesure un modèle traite les objets de différentes tailles. Pour les petits objets, les performances sont souvent limitées par la précision de la localisation plutôt que par la classification seule, ce qui signifie que de légers décalages du cadre de sélection peuvent avoir une incidence significative sur les résultats.

En d'autres termes, le modèle peut identifier correctement la classe de l'objet, mais si le cadre de sélection prédit est légèrement décalé, la détection peut tout de même être considérée comme incorrecte. Les petits objets ne couvrant qu'un petit nombre de pixels, même un léger décalage dans le placement du cadre peut réduire considérablement le chevauchement entre le cadre prédit et la vérité terrain. Par conséquent, les scores d'évaluation peuvent baisser même lorsque l'objet a été identifié correctement.

Fig. 3. L'évaluation de la détection de petits objets peut s'avérer délicate (Source)

Une approche plus informative consiste à évaluer les performances en fonction de la taille des objets. La plupart des benchmarks couramment utilisés indiquent séparément la précision moyenne pour les objets petits, moyens et grands. 

Cette ventilation par taille permet de mieux comprendre les domaines dans lesquels le modèle fonctionne bien et ceux dans lesquels il rencontre des difficultés. Dans la pratique, AP pour les petits objets est souvent inférieur mAP global, ce qui met en évidence les difficultés de localisation qui peuvent ne pas être évidentes dans les mesures agrégées.

Tenir compte des contraintes de déploiement et des compromis dans le monde réel

Les performances des modèles changent souvent lorsqu'on passe d'environnements de test contrôlés à un déploiement en conditions réelles. Des facteurs tels que la résolution d'image, la vitesse de traitement et le matériel disponible introduisent des compromis qui affectent directement la détection des petits objets.

Par exemple, l'augmentation de la résolution d'entrée peut améliorer mAP des petits objets, mAP les petites cibles occupent plus de pixels et conservent plus de détails. Cependant, une résolution plus élevée augmente également l'utilisation de la mémoire et le temps de traitement. Cela peut ralentir l'inférence et augmenter les coûts opérationnels.

Fig. 4. Défis liés au déploiement de la détection de petits objets. Image réalisée par l'auteur.

Le choix du matériel joue un rôle clé dans la gestion de ces compromis. Des GPU plus puissants permettent d'utiliser des modèles plus volumineux et d'accélérer le traitement, mais les environnements de déploiement, en particulier les périphériques de pointe, disposent souvent de ressources informatiques et mémorielles limitées. 

Les applications en temps réel ajoutent une autre contrainte : le maintien d'une faible latence peut nécessiter une réduction de la taille du modèle ou de la résolution d'entrée, ce qui peut avoir un impact négatif sur la reconnaissance des petits objets. En fin de compte, les décisions de déploiement nécessitent de trouver un équilibre entre les performances de détection, les limitations matérielles, les exigences de vitesse et le coût global. 

Tout mettre en place : améliorer mAP du modèle mAP les petits objets

L'amélioration de la détection des petits objets nécessite une approche pratique et structurée, en particulier lorsque l'on travaille dans des environnements réels. Voici un aperçu des principales étapes à garder à l'esprit :

  • Vérifiez la qualité de votre ensemble de données : assurez-vous que votre ensemble de données comprend suffisamment d'exemples de petits objets, utilise des images haute résolution lorsque cela est possible et reflète les conditions dans lesquelles le modèle sera déployé.
  • Vérifier la cohérence des annotations : s'assurer que les cadres de sélection sont précis, complets et étiquetés de manière cohérente. Des annotations incohérentes peuvent limiter directement les performances de localisation.
  • Réglez les paramètres d'entraînement de manière réfléchie : ajustez la taille des lots, le nombre d'époches et les paramètres d'optimisation de manière judicieuse afin que les petits objets soient correctement représentés pendant l'entraînement.
  • Procédez étape par étape : effectuez des ajustements contrôlés, mesurez leur impact et affinez votre approche. Une itération régulière, fondée sur des données, conduit à une amélioration constante au fil du temps.

Principaux points à retenir

Pour améliorer mAP les petits objets, il faut adopter une approche structurée et axée sur les données plutôt que de procéder à des ajustements aléatoires. Les véritables améliorations proviennent de la combinaison de données de qualité, d'annotations cohérentes, d'un entraînement minutieux et de méthodes d'évaluation appropriées. Dans les projets concrets, ce sont des tests réguliers et des changements mesurables à petite échelle qui permettent d'améliorer et de fiabiliser la détection des petits objets au fil du temps.

Rejoignez notre communauté en pleine expansion et explorez notre référentiel GitHub pour découvrir des ressources pratiques sur l'IA. Pour développer dès aujourd'hui des solutions basées sur l'IA visuelle, découvrez nos options de licence. Découvrez comment l'IA transforme l'agriculture et comment l'IA visuelle en robotique façonne l'avenir en consultant nos pages Solutions.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement