Découvrez comment les détecteurs à base d'ancrage révolutionnent la détection d'objets grâce à une localisation précise, une adaptabilité à l'échelle et des applications concrètes.
Les détecteurs à base d'ancrage constituent une classe fondamentale de modèles de détection d'objets dans le domaine de la vision par ordinateur. Ces modèles utilisent un ensemble prédéfini de boîtes, appelées boîtes d'ancrage, pour identifier et localiser des objets dans une image. Les boîtes d'ancrage sont essentiellement une grille de modèles de différentes tailles et de différents rapports d'aspect qui sont disposés en mosaïque sur l'image. Le modèle prédit comment déplacer et mettre à l'échelle ces points d'ancrage pour qu'ils correspondent aux boîtes de délimitation des objets, ainsi qu'à un score de confiance indiquant la présence d'un objet. Cette approche simplifie le problème de la recherche d'objets en le transformant en une tâche de régression et de classification par rapport à ces ancres fixes.
Parmi les principaux exemples d'architectures basées sur l'ancrage, on peut citer la famille R-CNN, telle que Faster R-CNN, les premiers détecteurs à étape unique tels que SSD (Single Shot MultiBox Detector) et de nombreux modèles YOLO, notamment le modèle YOLOv5 d'Ultralytics, qui a connu un grand succès.
L'idée centrale de la détection basée sur l'ancrage est d'utiliser un ensemble de boîtes de référence prédéfinies comme point de départ. Au cours du processus d'apprentissage du modèle, le détecteur apprend à effectuer deux tâches principales pour chaque boîte d'ancrage :
Ces prédictions sont effectuées par la tête de détection du modèle après traitement des caractéristiques de l'image extraites par l'épine dorsale. Étant donné qu'un même objet peut être détecté par plusieurs boîtes d'ancrage, une étape de post-traitement appelée Suppression non maximale (NMS) est utilisée pour filtrer les détections redondantes et ne conserver que la boîte la mieux adaptée. Les performances de ces modèles sont souvent évaluées à l'aide de mesures telles que la précision moyenne (mAP) et l'intersection sur l'union (IoU).
Ces dernières années, les détecteurs sans ancrage sont apparus comme une alternative populaire. Contrairement aux modèles basés sur les ancres, les approches sans ancres prédisent directement la localisation et la taille des objets, souvent en identifiant des points clés (comme les centres ou les coins des objets) ou en prédisant les distances entre un point et les limites de l'objet, ce qui élimine le besoin de formes d'ancres prédéfinies.
Les principales différences sont les suivantes :
Alors que les détecteurs basés sur les ancres comme YOLOv4 ont connu un grand succès, de nombreuses architectures modernes, y compris Ultralytics YOLO11, ont adopté des conceptions sans ancres pour tirer parti de leurs avantages en termes de simplicité et d'efficacité. Vous pouvez explorer les avantages de la détection sans ancrage dans YOLO11 et voir des comparaisons entre différents modèles YOLO.
Les détecteurs à ancrage sont largement utilisés dans diverses applications où les objets ont des formes et des tailles relativement standard.
Le développement et le déploiement de modèles de détection d'objets, qu'ils soient basés ou non sur des ancres, impliquent l'utilisation de frameworks tels que PyTorch ou TensorFlow et de bibliothèques telles qu'OpenCV. Des plateformes telles qu'Ultralytics HUB offrent des flux de travail rationalisés pour l'entraînement de modèles personnalisés, la gestion d'ensembles de données et le déploiement de solutions, en prenant en charge diverses architectures de modèles. Pour un apprentissage plus approfondi, des ressources telles que Papers With Code répertorient les modèles les plus récents, et des cours proposés par des plateformes telles que DeepLearning.AI couvrent les concepts fondamentaux.