Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Tête de détection

Découvrez le rôle essentiel des têtes de détection dans la détection d'objets, en affinant les cartes de caractéristiques pour identifier avec précision les emplacements et les classes d'objets.

La tête de détection est le dernier élément, et peut-être le plus important, d'un modèle de détection d'objets ; elle constitue la couche décisionnelle qui traduit les caractéristiques de l'image encodée en prédictions exploitables. de décision qui traduit les caractéristiques de l'image encodée en prédictions exploitables. Située à la toute fin d'un réseau neuronal réseau neuronal d'apprentissage profond, plus précisément après la colonne vertébrale et le cou, la tête de détection traite des cartes de caractéristiques de haut niveau afin de produire le résultat final : la tête de détection. de haut niveau pour produire le résultat final : la classe de l'objet et son l'objet et son emplacement précis dans l'image. Alors que les premières couches du réseau se concentrent sur l'extraction de caractéristiques l'extraction des caractéristiques (identification des bords, des textures et des motifs complexes), la tête de détection interprète ces données pour répondre aux questions "qu'est-ce que c'est ? "Qu'est-ce que c'est ?" et "Où est-ce ?"

Fonctionnalité et architecture

La responsabilité première d'une tête de détection est d'effectuer deux tâches distinctes mais simultanées : la classification et la régression. régression. Dans les architectures architectures modernes de détection d'objets, ces tâches sont souvent traitées par des branches distinctes au sein de la tête, un choix de conception qui permet au modèle de se spécialiser dans différents aspects de la prédiction. de se spécialiser dans différents aspects de la prédiction.

  • Branche de classification : Cette sous-composante attribue un score de probabilité à diverses catégories (par exemple : "personne", "vélo", "feu de circulation"), "personne", "bicyclette", "feu de circulation"). Il utilise une fonction de perte telle que la perte d'entropie croisée pour apprendre la différence entre les classes. la différence entre les classes.
  • Branche de régression : Cette partie de la tête prédit les coordonnées spatiales de la boîte englobante de l'objet. de la boîte englobant l'objet. Elle affine les dimensions de la boîte (x, y, largeur, hauteur) dimensions de la boîte (x, y, largeur, hauteur) pour s'aligner étroitement sur la réalité du terrain, en minimisant souvent la perte d'intersection sur l'union (IoU). la perte d'intersection sur l'union (IoU).

La sortie de la tête de détection est généralement un ensemble dense de détections candidates. Pour finaliser les résultats, des étapes de post-traitement telles que suppression non maximale (NMS) sont appliquées pour filtrer les boîtes qui se chevauchent et ne conserver que les prédictions les plus sûres.

Types de têtes de détection

La conception de la tête de détection dicte la manière dont un modèle aborde le problème de la localisation des objets.

  • Têtes basées sur l'ancrage : Les détecteurs d'objets traditionnels traditionnels à une étape, comme les premières versions de YOLO s'appuient sur des boîtes d'ancrage prédéfinies. La tête prédit les décalages par rapport à ces boîtes de référence fixes. Bien qu'efficace, cette approche nécessite un réglage minutieux des hyperparamètres d'ancrage. hyperparamètres d'ancrage.
  • Des têtes sans ancrage : Modèles de pointe, y compris Ultralytics YOLO11utilisent des des détecteurs sans ancrage. Ces têtes prédisent les centres les centres et les tailles des objets directement à partir des pixels de la carte des caractéristiques, sans s'appuyer sur des boîtes prédéfinies. Cela simplifie considérablement l'architecture du modèle et améliore la généralisation à différentes formes d'objets. Cela simplifie considérablement l'architecture du modèle et améliore la généralisation à différentes formes d'objets.

Applications concrètes

L'efficacité et la précision de la tête de détection sont essentielles pour déployer l'intelligence artificielle (IA) dans des environnements complexes. l'intelligence artificielle (IA) dans des environnements complexes.

  1. Diagnostic médical : Dans l'analyse analyse d'images médicales, les têtes de détection sont entraînées à repérer les anomalies telles que les tumeurs ou les fractures dans les radiographies et les IRM. Par exemple, l'IA dans le domaine de la santé repose sur des têtes de haute précision, l 'IA dans le domaine de la santé s'appuie sur des têtes de haute précision pour réduire les faux négatifs et aider les radiologues à détecter les maladies à un stade précoce.
  2. Analyse de la vente au détail : Les magasins intelligents utilisent la vision par ordinateur pour suivre track stocks et le comportement des clients. des clients. Les têtes de détection de l l 'IA pour les applications de vente au détail peuvent identifier des produits spécifiques dans les rayons ou detect comportements suspects pour la prévention des pertes, en traitant les flux vidéo en temps réel.

Tête de détection vs. colonne vertébrale et cou

Il est utile de distinguer la tête de détection des autres composants principaux d'un réseau de neurones. réseau neuronal convolutif (CNN):

  • Backbone (épine dorsale) : L'épine dorsale (par exemple, ResNet ou CSPDarknet) est chargé d'extraire les caractéristiques visuelles brutes de l'image d'entrée.
  • Cou : Le manche, souvent un réseau pyramidal de caractéristiques (FPN), mélange et affine ces caractéristiques pour agréger le contexte à différentes échelles. et affine ces caractéristiques pour agréger le contexte à différentes échelles.
  • Tête : la tête de détection utilise ces caractéristiques affinées pour générer les prédictions finales de classe et de coordonnées. et de coordonner les prédictions.

Exemple de mise en œuvre

L'extrait de code Python suivant montre comment inspecter la tête de détection d'un modèle YOLO11 pré-entraîné à l'aide de la fonction l'outil ultralytics (en français dans le texte). Cela aide les utilisateurs à comprendre la structure de la couche finale responsable de l'inférence. l'inférence.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Inspect the final detection head layer
# This typically reveals the number of classes (nc) and anchors/outputs
print(model.model.model[-1])

# Run inference to see the head's output in action
results = model("https://ultralytics.com/images/bus.jpg")

La compréhension de la tête de détection est essentielle pour toute personne cherchant à optimiser les performances du modèle ou à effectuer des tâches avancées. performance du modèle ou effectuer des tâches avancées comme l'apprentissage par transfert, où la tête est souvent remplacée pour former le modèle sur un nouvel ensemble de données personnalisé. nouveau jeu de données personnalisé. Les chercheurs expérimentent en permanence de nouvelles de nouveaux modèles de têtes pour améliorer des paramètres tels que la la précision moyenne (mAP), repoussant ainsi les les limites de ce que la vision par ordinateur peut réaliser.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant