Découvrez comment les détecteurs à base d'ancrage révolutionnent la détection d'objets grâce à une localisation précise, une adaptabilité à l'échelle et des applications concrètes.
Les détecteurs basés sur les ancres représentent une approche importante et fondamentale dans le domaine de la vision par ordinateur (VA) pour aborder la tâche de la détection d'objets. Ces modèles fonctionnent en utilisant un ensemble prédéfini de boîtes de référence, communément appelées "ancres" ou "priors", qui ont des tailles et des rapports d'aspect spécifiques. Les ancres sont réparties sur l'ensemble de l'image et agissent comme des suppositions initiales ou des modèles, permettant au modèle de prédire plus efficacement l'emplacement et la classe des objets, en particulier lorsqu'il s'agit d'éléments d'échelles et de formes différentes. De nombreux modèles de détection d'objets influents, tels que certaines versions de la famille Ultralytics YOLO, ont utilisé cette technique.
Le concept fondamental des détecteurs basés sur les ancres consiste à superposer une grille dense de ces boîtes d'ancrage prédéfinies sur l'image d'entrée à plusieurs endroits et à plusieurs échelles. Chaque boîte d'ancrage correspond à un objet potentiel d'une taille et d'une forme spécifiques. Au cours du processus d'apprentissage du modèle, le détecteur apprend deux choses essentielles pour chaque ancre : premièrement, il détermine si la boîte d'ancrage contient un objet ou un arrière-plan pertinent ; deuxièmement, il affine la position et les dimensions de l'ancre (un processus appelé régression) afin de correspondre précisément à la boîte de délimitation de l'objet réel.
Prenons l'exemple de la détection de différents véhicules dans une image d'une rue très fréquentée. Au lieu d'analyser chaque groupe de pixels, un modèle basé sur les ancres utilise des modèles de boîtes prédéfinies : des petites boîtes pour les piétons, des carrés moyens pour les voitures et des rectangles plus grands pour les bus. Ces modèles (ancres) sont placés sur l'ensemble de l'image. Si une ancre chevauche de manière significative une voiture, le modèle apprend à la classer comme "voiture" et ajuste les coordonnées et la taille de l'ancre pour qu'elle s'adapte parfaitement à la voiture. Les ancres qui ne couvrent que la route ou les bâtiments sont classées comme "arrière-plan". Cette approche systématique, guidée par des formes prédéfinies, permet de gérer la complexité de la détection d'objets. Les performances sont généralement évaluées à l'aide de mesures telles que l'intersection sur l'union (IoU ) et la précision moyenne (mAP).
Les détecteurs basés sur l'ancrage, qui s'appuient souvent sur de puissants réseaux neuronaux convolutifs (CNN), offrent des avantages indéniables :
Les détecteurs basés sur les ancres ont été déployés avec succès dans de nombreux scénarios réels :
Ces dernières années, les détecteurs sans ancrage sont apparus comme une alternative populaire. Contrairement aux modèles basés sur les ancres (par exemple, Ultralytics YOLOv5), les approches sans ancres prédisent directement l'emplacement et la taille des objets, souvent en identifiant des points clés (comme les centres ou les coins des objets) ou en prédisant les distances entre un point et les limites de l'objet, ce qui élimine le besoin de formes d'ancres prédéfinies.
Les principales différences sont les suivantes :
Alors que les détecteurs basés sur les ancres comme YOLOv4 ont connu un grand succès, de nombreuses architectures modernes, y compris Ultralytics YOLO11, ont adopté des conceptions sans ancres pour tirer parti de leurs avantages en termes de simplicité et d'efficacité. Vous pouvez explorer les avantages de la détection sans ancrage dans YOLO11 et voir des comparaisons entre différents modèles YOLO.
Le développement et le déploiement de modèles de détection d'objets, qu'ils soient basés ou non sur des ancres, impliquent l'utilisation de frameworks tels que PyTorch ou TensorFlow et de bibliothèques telles qu'OpenCV. Des plateformes telles qu'Ultralytics HUB offrent des flux de travail rationalisés pour l'entraînement de modèles personnalisés, la gestion d'ensembles de données et le déploiement de solutions, en prenant en charge diverses architectures de modèles. Pour un apprentissage plus approfondi, des ressources telles que Papers With Code répertorient les modèles les plus récents, et des cours proposés par des plateformes telles que DeepLearning.AI couvrent les concepts fondamentaux.