Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Architectures de détection d'objets

Découvrez la puissance des architectures de détection d'objets, la base de l'IA pour la compréhension des images. Découvrez les types, les outils et les applications concrètes dès aujourd'hui !

Les architectures de détection d'objets sont les plans fondamentaux des modèles de deep learning qui effectuent la détection d'objets. Cette tâche de vision par ordinateur (CV) consiste à identifier la présence et l'emplacement d'objets dans une image ou une vidéo, généralement en dessinant une boîte englobante autour d'eux et en leur attribuant une étiquette de classe. L'architecture définit la structure du modèle, y compris la manière dont il traite les informations visuelles et effectue des prédictions. Le choix de l'architecture est essentiel car il influe directement sur la vitesse, la précision et les exigences de calcul d'un modèle.

Fonctionnement des architectures de détection d’objets

La plupart des architectures modernes de détection d'objets sont constituées de trois composants principaux qui fonctionnent en séquence :

  • Backbone : Il s'agit d'un réseau neuronal convolutif (CNN), souvent pré-entraîné sur un grand ensemble de données de classification d'images comme ImageNet. Son rôle principal est d'agir comme un extracteur de caractéristiques, convertissant l'image d'entrée en une série de cartes de caractéristiques qui capturent des informations visuelles hiérarchiques. Les réseaux backbone populaires incluent ResNet et CSPDarknet, qui est utilisé dans de nombreux modèles YOLO. Vous pouvez en apprendre davantage sur les fondamentaux des CNN à partir de sources telles que la présentation détaillée d'IBM.
  • Neck : Ce composant optionnel se situe entre le backbone et la tête. Il sert à agréger et à affiner les cartes de caractéristiques générées par le backbone, combinant souvent des caractéristiques de différentes échelles pour améliorer la détection d’objets de différentes tailles. Les réseaux de neurones FPN (Feature Pyramid Networks) en sont des exemples.
  • Tête de détection : La tête est le composant final responsable de la réalisation des prédictions. Elle prend les cartes de caractéristiques traitées du cou (ou directement du backbone) et produit les probabilités de classe et les coordonnées de la boîte englobante pour chaque objet détecté.

Types d'architectures

Les architectures de détection d'objets sont généralement classées en fonction de leur approche de prédiction, ce qui entraîne un compromis entre vitesse et précision. Vous pouvez consulter des comparaisons détaillées de modèles pour observer ces compromis en action.

  • Détecteurs d'objets en deux étapes : Ces modèles, tels que la famille R-CNN, identifient d'abord un ensemble de régions d'objets candidates (propositions de régions), puis classifient chaque région. Ce processus en deux étapes peut atteindre une grande précision, mais il est souvent plus lent.
  • Détecteurs d'objets "One-Stage" : Les architectures telles que la famille Ultralytics YOLO (You Only Look Once) traitent la détection d'objets comme un problème de régression unique. Elles prédisent les boîtes englobantes et les probabilités de classe directement à partir de l'image complète en une seule passe, ce qui permet une inférence en temps réel.
  • Détecteurs sans ancres : Évolution plus récente au sein des détecteurs à une étape, les architectures sans ancres comme Ultralytics YOLO11 éliminent le besoin de boîtes d'ancrage prédéfinies. Cela simplifie le processus d'entraînement et conduit souvent à des modèles plus rapides et plus efficaces.

Applications concrètes

Les architectures de détection d'objets alimentent de nombreuses applications d'IA dans divers secteurs :

Outils et technologies

Le développement et le déploiement de modèles basés sur ces architectures impliquent souvent des outils et des frameworks spécialisés :

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers