Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Architectures de détection d'objets

Découvrez la puissance des architectures de détection d'objets, la base de l'IA pour la compréhension des images. Découvrez les types, les outils et les applications concrètes dès aujourd'hui !

Les architectures de détection d'objets servent de cadre structurel pour les modèles d'apprentissage profond conçus pour localiser les objets. modèles d'apprentissage profond conçus pour localiser et identifier des éléments distincts dans des données visuelles. Contrairement à la classification classification d'images standard, qui attribue une à l'ensemble d'une image, ces architectures permettent aux machines de reconnaître plusieurs entités, en définissant leur position précise à l'aide d'une boîte de délimitation et en leur attribuant un nom spécifique. leur position précise à l'aide d'une boîte englobante et en leur attribuant une une étiquette de classe spécifique à chacune d'entre elles. L'architecture dicte effectivement la manière dont le réseau neuronal traite les données des pixels pour les transformer en informations significatives, influençant directement le modèle. significatives, ce qui influe directement sur la précision du modèle, la vitesse et l'efficacité de calcul du modèle.

Principaux éléments des architectures de détection

La plupart des systèmes de détection modernes reposent sur une conception modulaire comprenant trois étapes principales. La compréhension de ces composants permet aux chercheurs et aux ingénieurs de sélectionner l'outil adéquat pour des tâches allant de l'analyse d'images médicales à l'analyse industrielle. l'analyse d'images médicales à l'automatisation l'automatisation industrielle.

  • L'épine dorsale : Il s'agit de la partie initiale du réseau, responsable de l'extraction des caractéristiques. Il s'agit généralement un réseau neuronal convolutif (CNN) qui traite l'image brute afin d'identifier des motifs tels que les bords, les textures et les formes. Les réseaux de base les plus courants sont les suivants Residual Networks (ResNet ) et les réseaux Cross Les réseaux populaires comprennent les réseaux résiduels (ResNet) et les réseaux CSP (Cross Stage Partial) utilisés dans les modèles YOLO . Pour une compréhension plus approfondie de l'extraction de caractéristiques, vous pouvez consulter les documents suivants les notes du cours CS231n de l'Université de Stanford.
  • Le cou : Situé entre la colonne vertébrale et la tête, le cou regroupe les cartes de caractéristiques provenant de différentes étapes. Cela permet au modèle de detect objets à différentes échelles (petite, moyenne et grande). Une technique est le Feature Pyramid Network (FPN). Feature Pyramid Network (FPN), qui crée une représentation multi-échelle de l'image. crée une représentation multi-échelle de l'image.
  • La tête de détection : le dernier composant est la de détection, qui génère les prédictions finales. prédictions finales. Elle produit les coordonnées spécifiques des boîtes englobantes et les de confiance pour chaque classe.

Types d'architectures

Les architectures sont généralement classées en fonction de leur approche de traitement, qui représente souvent un compromis entre la vitesse d'inférence et la précision de détection. entre la vitesse d'inférence et la précision de détection.

Détecteurs à un ou deux étages

  • Détecteurs d'objets en deux étapes: Ces modèles, tels que la famille R-CNN, fonctionnent en deux étapes distinctes : ils génèrent d'abord des propositions de régions (zones où un objet pourrait se trouver) et classent ensuite ces régions. où un objet pourrait exister), puis en classant ces régions. Bien qu'ils soient historiquement connus pour leur grande précision, ils sont très gourmands en ressources informatiques. Vous pouvez lire l'article original R-CNN plus rapide pour comprendre les origines de cette approche.
  • Détecteurs d'objets en une étape: Architectures telles que le Ultralytics YOLO traitent la détection comme un problème de régression unique, prédisant les boîtes de délimitation et les probabilités de classe directement à partir de l'image en un seul passage. Cette structure permet une inférence en temps réel, ce qui la rend idéale pour les flux vidéo et les appareils périphériques.

Ancré ou non ancré

Les anciennes architectures s'appuyaient souvent sur sur des boîtes d'ancrage - desformes prédéfiniesque le modèle tente d'ajuster les objets. Cependant, les détecteurs modernes modernes sans ancrage, tels que YOLO11éliminent ce réglage manuel des hyperparamètres. Il en résulte un pipeline de formation simplifié et une meilleure généralisation. Pour l'avenir, les prochains projets de R&D tels que YOLO26 visent à d'affiner ces concepts sans ancrage, en ciblant des architectures natives de bout en bout pour une efficacité encore plus grande.

Applications concrètes

La polyvalence des architectures de détection d'objets stimule l'innovation dans de nombreux secteurs :

  • Véhicules autonomes: Les voitures autonomes utilisent des architectures à grande vitesse pour detect piétons, les panneaux de signalisation et les autres véhicules en temps réel. en temps réel. Des entreprises comme Waymo exploitent ces systèmes de vision avancés pour naviguer en toute sécurité dans des environnements urbains complexes. pour naviguer en toute sécurité dans des environnements urbains complexes.
  • Analyse de la vente au détail : Dans le secteur de la vente au détail, des architectures sont déployées pour supermarchés intelligents pour gérer les stocks et analyser le comportement des clients. En suivant les mouvements des produits sur les étagères, les magasins peuvent automatiser les processus de réapprovisionnement. les processus de réapprovisionnement.
  • Agriculture de précision : Les agriculteurs utilisent ces modèles pour l 'IA dans l'agriculture pour identifier les maladies des cultures ou détecter automatiquement les mauvaises herbes, ce qui permet de réduire considérablement l'utilisation de produits chimiques.

Mise en œuvre de la détection d'objets

L'utilisation d'une architecture moderne comme YOLO11 est simple grâce à des API Python de haut niveau. L'exemple suivant montre comment charger un modèle pré-entraîné et effectuer une inférence sur une image.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

Pour ceux qui souhaitent comparer l'impact des différents choix architecturaux sur les performances, vous pouvez explorer les comparaisons détaillées des modèles pour voir les références entre YOLO11 et d'autres modèles. comparaisons détaillées de modèles pour obtenir des repères entre YOLO11 et d'autres systèmes tels que RT-DETR. En outre, la compréhension de mesures telles que l'intersection par rapport à l'union (IoU) est essentielle. comme l'intersection sur l'union (IoU) est est cruciale pour évaluer dans quelle mesure une architecture remplit sa mission.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant