Découvre la vitesse et l'efficacité des détecteurs d'objets à une étape comme YOLO, idéal pour les applications en temps réel comme la robotique et la surveillance.
Dans le domaine de la vision par ordinateur (VA), en particulier pour la détection d'objets, la vitesse et l'efficacité sont souvent aussi cruciales que la précision. Les détecteurs d'objets en une étape sont une classe de modèles d'apprentissage profond conçus en tenant compte de ces priorités, offrant une approche simplifiée de l'identification et de la localisation d'objets au sein d'images ou de vidéos. Contrairement à leurs homologues à deux étapes, les détecteurs à une étape effectuent la localisation des objets (déterminer où se trouve un objet) et la classification (déterminer ce qu' est un objet) en une seule passe avant du réseau neuronal. Cette conception les rend beaucoup plus rapides et très adaptés aux applications d'inférence en temps réel.
Les détecteurs d'objets en une étape se caractérisent par leur conception de bout en bout, qui évite une étape séparée, gourmande en calcul, pour proposer des régions d'intérêt (zones susceptibles de contenir des objets). Au lieu de cela, ils traitent la détection d'objets comme un problème de régression. Le modèle traite l'ensemble de l'image d'entrée une seule fois, en utilisant généralement un réseau dorsal (souvent un réseau neuronal convolutif ou CNN) pour l'extraction des caractéristiques. Ces caractéristiques sont ensuite directement introduites dans une tête de détection qui prédit les coordonnées des boîtes englobantes, les probabilités de classe et les scores de confiance simultanément sur toute la grille de l'image ou les emplacements de la carte des caractéristiques. Cette architecture à passage unique met l'accent sur la vitesse, ce qui la rend idéale pour les applications où un traitement rapide est essentiel. Parmi les exemples les plus populaires, on peut citer Ultralytics YOLO d'Ultralytics, connus pour leur équilibre entre vitesse et précision (comme le modèle YOLO11), et le SSD (Single Shot MultiBox Detector) développé par Google Research. De nombreux détecteurs modernes à une étape sont également dépourvus d'ancrage, ce qui simplifie encore le pipeline par rapport aux anciennes méthodes basées sur l'ancrage.
La différence fondamentale entre les détecteurs d'objets à une étape et à deux étapes réside dans leur pipeline opérationnel. Les détecteurs en deux étapes, tels que l'influent R-CNN (Region-based CNN) et ses successeurs comme Faster R-CNN, génèrent d'abord de nombreuses propositions de régions à l'aide de méthodes telles que la recherche sélective ou un réseau de propositions de régions (RPN). Dans une deuxième étape distincte, ces propositions sont classées et leurs boîtes de délimitation sont affinées. Ce processus en deux étapes permet généralement d'obtenir une plus grande précision, en particulier pour la détection d'objets de petite taille ou qui se chevauchent, mais au prix d'une augmentation significative du temps de calcul et d'une diminution de la vitesse d'inférence.
En revanche, les détecteurs à une étape fusionnent ces étapes, effectuant la localisation et la classification simultanément sur l'ensemble de l'image en une seule fois. Cette approche unifiée se traduit par des gains de vitesse substantiels. Historiquement, cet avantage en termes de rapidité impliquait parfois un compromis, conduisant potentiellement à une précision légèrement inférieure à celle des méthodes en deux étapes les plus récentes, en particulier en ce qui concerne la précision de la localisation. Cependant, les progrès réalisés dans la conception de l'architecture, les fonctions de perte et les stratégies d'apprentissage ont permis aux détecteurs modernes à une étape comme YOLO11 de combler de manière significative cet écart de performance, offrant des comparaisons convaincantes à travers divers points de référence. Les performances sont généralement évaluées à l'aide de mesures telles que la précision moyenne (mAP) et l'intersection sur l'union (IoU).
La vitesse et l'efficacité des détecteurs d'objets en une étape les rendent inestimables dans de nombreux scénarios du monde réel nécessitant une prise de décision et un traitement rapides :
Le développement et le déploiement de détecteurs d'objets en une étape impliquent l'utilisation de différents outils et plateformes. Les cadres d'apprentissage profond comme PyTorch et TensorFlow fournissent les bibliothèques de base. Les bibliothèques de vision par ordinateur comme OpenCV offrent des fonctions essentielles de traitement d'images. Ultralytics fournit une technologie de pointe Ultralytics YOLO et la plateforme Ultralytics HUB, qui simplifie l'entraînement de modèles personnalisés sur des ensembles de données comme COCO ou tes propres données, la gestion des expériences et le déploiement efficace des modèles. Un entraînement efficace des modèles nécessite souvent un réglage minutieux des hyperparamètres et des stratégies telles que l'augmentation des données pour améliorer la robustesse et la généralisation. Les modèles peuvent être exportés dans des formats tels que ONNX pour être déployés sur diverses plates-formes matérielles, y compris les appareils périphériques.