Découvrez comment les boîtes d'ancrage permettent la détection d'objets basée sur l'ancrage, les antécédents pour la classification, la régression et le NMS, avec des applications dans la conduite autonome et le commerce de détail.
Les boîtes d'ancrage sont un élément fondamental de nombreux modèles de détection d'objets basés sur l'ancrage, servant d'ensemble prédéfini de boîtes de référence avec des hauteurs et des largeurs spécifiques. Ces boîtes servent d'antécédents, ou de suppositions éclairées, sur l'emplacement et l'échelle potentiels des objets dans une image. Au lieu de rechercher des objets à l'aveugle, les modèles utilisent ces points d'ancrage comme points de départ, prédisant des décalages pour affiner leur position et leur taille afin de les faire correspondre aux objets réels. Cette approche transforme la tâche complexe de localisation d'objets en un problème de régression plus facile à gérer, où le modèle apprend à ajuster ces modèles plutôt que de générer des boîtes à partir de zéro.
Le mécanisme de base consiste à recouvrir une image d'une grille dense de boîtes d'ancrage à différentes positions. À chaque position, des ancres multiples avec des échelles et des rapports d'aspect différents sont utilisées pour s'assurer que des objets de formes et de tailles diverses peuvent être détectés efficacement. Au cours du processus d'apprentissage du modèle, l'épine dorsale du détecteur extrait d'abord une carte de caractéristiques de l'image d'entrée. La tête de détection utilise ensuite ces caractéristiques pour effectuer deux tâches pour chaque boîte d'ancrage :
Le modèle utilise des mesures telles que l'intersection sur l'union (IoU) pour déterminer les boîtes d'ancrage qui correspondent le mieux aux objets de référence au cours de l'apprentissage. Après la prédiction, une étape de post-traitement appelée Suppression non maximale (NMS) est appliquée pour éliminer les boîtes redondantes et se chevauchant pour le même objet.
Il est important de distinguer les boîtes d'ancrage des termes apparentés dans le domaine de la vision par ordinateur :
L'approche structurée des boîtes d'ancrage les rend efficaces dans les scénarios où les objets ont des formes et des tailles prévisibles.
Ces modèles sont généralement développés à l'aide de puissants cadres d'apprentissage profond tels que PyTorch et TensorFlow. Pour un apprentissage continu, des plateformes comme DeepLearning.AI proposent des cours complets sur les fondamentaux de la vision par ordinateur.