Découvrez la vitesse et l'efficacité des détecteurs d'objets à étape unique comme YOLO, idéaux pour les applications en temps réel telles que la robotique et la surveillance.
Les détecteurs d'objets à une étape sont une classe de modèles d'apprentissage profond conçus pour la vitesse et l'efficacité dans la vision par ordinateur. Ils effectuent la localisation et la classification des objets en une seule passe unifiée du réseau neuronal. Cela contraste avec leurs homologues plus complexes, les détecteurs d'objets à deux étapes, qui divisent la tâche en deux étapes distinctes. En traitant la détection d'objets comme un problème de régression simple, les modèles à une étape prédisent les boîtes englobantes et les probabilités de classe directement à partir des caractéristiques de l'image, ce qui les rend exceptionnellement rapides et adaptés aux applications nécessitant une inférence en temps réel.
Un détecteur à une étape traite une image entière en une seule fois via un seul réseau neuronal convolutif (CNN). L'architecture du réseau est conçue pour effectuer plusieurs tâches simultanément. Tout d'abord, le backbone du réseau effectue l'extraction de caractéristiques, créant des représentations riches de l'image d'entrée à différentes échelles. Ces caractéristiques sont ensuite introduites dans une tête de détection spécialisée.
Cette tête est responsable de la prédiction d'un ensemble de boîtes englobantes, d'un score de confiance pour chaque boîte indiquant la présence d'un objet, et de la probabilité que chaque objet appartienne à une classe spécifique. L'ensemble de ce processus se déroule en une seule passe avant, ce qui est la clé de leur grande vitesse. Des techniques telles que la suppression non maximale (NMS) sont ensuite utilisées pour filtrer les détections redondantes et chevauchantes afin de produire la sortie finale. Les modèles sont entraînés à l'aide d'une fonction de perte spécialisée qui combine la perte de localisation (la précision de la boîte englobante) et la perte de classification (la précision de la prédiction de classe).
La principale distinction réside dans la méthodologie. Les détecteurs en une étape sont conçus pour la vitesse et la simplicité, tandis que les détecteurs en deux étapes privilégient la précision, bien que cette distinction s'estompe avec les modèles plus récents.
Plusieurs architectures one-stage influentes ont été développées, chacune avec des contributions uniques :
La rapidité et l'efficacité des détecteurs "one-stage" les ont rendus indispensables dans de nombreuses applications basées sur l'IA :
L'avantage principal des détecteurs à une étape est leur incroyable vitesse, qui permet la détection d'objets en temps réel sur une variété de matériels, y compris les appareils Edge AI à faible consommation d'énergie comme le NVIDIA Jetson ou le Raspberry Pi. Leur architecture plus simple, de bout en bout, les rend également plus faciles à entraîner et à déployer à l'aide de frameworks comme PyTorch ou TensorFlow.
Historiquement, la principale limitation a été une précision plus faible par rapport aux détecteurs en deux étapes, en particulier lorsqu'il s'agit d'objets très petits ou fortement occlus. Cependant, les récentes avancées dans l'architecture des modèles et les techniques d'entraînement, comme on le voit dans les modèles tels que YOLO11, ont considérablement réduit cet écart de performance, offrant une combinaison puissante de vitesse et de haute précision pour un large éventail de tâches de vision par ordinateur. Les plateformes comme Ultralytics HUB simplifient davantage le processus d'entraînement de modèles personnalisés pour des besoins spécifiques.