Glossaire

Détection d'objets

Découvrez la puissance de la détection d'objets : identifiez et localisez des objets dans des images ou des vidéos avec des modèles de pointe tels que YOLO. Explorez les applications du monde réel !

La détection d'objets est une tâche fondamentale de la vision par ordinateur qui consiste à identifier la présence, l'emplacement et le type d'un ou de plusieurs objets dans une image ou une vidéo. Contrairement à la classification d'images, qui attribue une étiquette unique à l'ensemble d'une image (par exemple, "chat"), la détection d'objets délimite précisément chaque instance d'objet à l'aide d'une boîte englobante et lui attribue une étiquette de classe (par exemple, "chat" aux coordonnées x, y, largeur, hauteur). Cette capacité permet aux machines de comprendre les scènes visuelles avec une plus grande granularité, imitant de plus près la perception visuelle humaine et permettant des interactions plus complexes avec l'environnement. Il s'agit d'une technologie de base qui sous-tend de nombreuses applications modernes d'intelligence artificielle (IA).

Fonctionnement de la détection d'objets

La détection d'objets combine généralement deux tâches principales : la classification des objets (déterminer "quel" objet est présent) et la localisation des objets (déterminer "où" l'objet est situé, généralement via les coordonnées de la boîte englobante). Les systèmes modernes de détection d'objets s'appuient fortement sur l'apprentissage profond (DL), en particulier les réseaux neuronaux convolutifs (CNN). Ces réseaux sont entraînés sur de grands ensembles de données annotés, tels que le populaire ensemble de données COCO ou Open Images V7, afin d'apprendre les caractéristiques visuelles et les modèles associés aux différentes classes d'objets.

Pendant l'opération (appelée inférence), le modèle entraîné traite une image ou une trame vidéo d'entrée. Il produit une liste d'objets potentiels, chacun représenté par une boîte englobante, une étiquette de classe prédite (par exemple, "voiture", "personne", "chien") et un score de confiance indiquant la certitude du modèle quant à la détection. Des techniques telles que la suppression non maximale (NMS) sont souvent utilisées pour affiner ces résultats en supprimant les boîtes redondantes qui se chevauchent pour le même objet. Les performances de ces modèles sont généralement évaluées à l'aide de mesures telles que l'intersection sur l'union (IoU ) et la précision moyenne (mAP).

Détection d'objets et tâches connexes

Il est important de distinguer la détection d'objets des autres tâches liées à la vision par ordinateur :

  • Classification des images: Attribue une étiquette unique à l'ensemble d'une image (par exemple, "Cette image contient un chien"). Elle ne localise pas le ou les objets.
  • Segmentation d'images: Classifie chaque pixel d'une image, créant ainsi une carte détaillée des limites de l'objet. Cette méthode est plus granulaire que les boîtes de délimitation de la détection d'objets.
    • Segmentation sémantique: Elle attribue une étiquette de classe à chaque pixel (par exemple, tous les pixels appartenant à la catégorie "voitures" sont étiquetés "voiture"). Elle ne fait pas de distinction entre les différentes instances d'une même classe.
    • Segmentation de l'instance: Attribue une étiquette de classe à chaque pixel et différencie les instances individuelles de la même classe (par exemple, "voiture 1", "voiture 2"). Elle combine la détection et la segmentation.
  • Suivi des objets: Il s'agit de détecter des objets dans des images vidéo consécutives et d'attribuer un identifiant unique à chaque objet afin de suivre son mouvement dans le temps. Cette méthode s'appuie sur la détection d'objets.

Types de modèles de détection d'objets

Les modèles de détection d'objets se répartissent généralement en deux grandes catégories, qui diffèrent principalement par leur approche et leur compromis vitesse/précision :

  • Détecteurs d'objets à deux niveaux: Ces modèles proposent d'abord des régions d'intérêt (RdI) où des objets pourraient se trouver, puis classent les objets dans ces régions. La famille R-CNN (Fast R-CNN, Faster R-CNN) en est un exemple. Ils atteignent souvent une grande précision mais ont tendance à être plus lents.
  • Détecteurs d'objets à un étage: Ces modèles prédisent directement les boîtes de délimitation et les probabilités de classe à partir de l'image d'entrée en un seul passage, sans étape distincte de proposition de région. Les exemples incluent la série Ultralytics YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), et RetinaNet. Elles sont généralement plus rapides, ce qui les rend adaptées à l'inférence en temps réel, parfois au prix d'une précision légèrement inférieure à celle des méthodes en deux étapes, bien que des modèles comme YOLO11 comblent efficacement cette lacune. Des approches plus récentes, telles que les détecteurs sans ancrage, simplifient encore le processus en une étape. Vous pouvez explorer les comparaisons entre différents modèles YOLO et d'autres architectures comme RT-DETR.

Applications dans le monde réel

La détection d'objets est une technologie fondamentale qui permet de nombreuses applications dans divers secteurs :

  1. Systèmes autonomes : Essentiels pour les voitures autonomes et la robotique, ils permettent aux véhicules et aux robots de percevoir leur environnement en détectant les piétons, les autres véhicules, les obstacles, les panneaux de signalisation et les objets spécifiques pour l'interaction. Des entreprises comme Tesla et Waymo s'appuient fortement sur une détection robuste des objets.
  2. Sécurité et surveillance : Utilisé dans les systèmes d'alarme de sécurité pour détecter les intrus, surveiller les foules(Vision AI in Crowd Management), identifier les objets abandonnés et améliorer l'efficacité de la surveillance dans les espaces publics et les propriétés privées.
  3. Analyse de la vente au détail : Alimente des applications telles que les systèmes de caisse automatisés, la gestion des stocks pilotée par l'IA, la surveillance des rayons (détection des articles en rupture de stock) et l'analyse des schémas de fréquentation des clients.
  4. Santé : Appliqué à l'analyse d'images médicales pour détecter des anomalies telles que des tumeurs(Using YOLO11 for Tumor Detection) ou des lésions dans les radiographies, les tomodensitogrammes et les IRM, afin d'aider les radiologues à poser leur diagnostic(Radiology : Artificial Intelligence).
  5. Agriculture : Permet des techniques d'agriculture de précision, telles que la détection des parasites, des maladies et des mauvaises herbes, le comptage des fruits(vision par ordinateur dans l'agriculture) et la surveillance de la santé des cultures(solutions d'IA dans l'agriculture).
  6. Fabrication : Utilisé pour le contrôle de la qualité en détectant les défauts des produits sur les chaînes de montage(Inspection de la qualité dans la fabrication), en assurant la sécurité par la surveillance des zones dangereuses et en automatisant les tâches robotisées.

Outils et formation

Le développement et le déploiement de modèles de détection d'objets impliquent divers outils et techniques. Les frameworks populaires d'apprentissage profond tels que PyTorch et TensorFlow fournissent les bibliothèques de base. Les bibliothèques de vision artificielle telles que OpenCV offrent des fonctions essentielles de traitement d'images.

Ultralytics fournit des modèles Ultralytics YOLO de pointe, y compris YOLOv8 et YOLO11, optimisés pour la vitesse et la précision. La plateforme Ultralytics HUB simplifie encore le flux de travail, en offrant des outils pour la gestion des ensembles de données, l'entraînement des modèles personnalisés, l'ajustement des hyperparamètres et le déploiement des modèles. La formation de modèles efficaces bénéficie souvent de stratégies d'augmentation des données et de techniques telles que l'apprentissage par transfert en utilisant des poids pré-entraînés provenant d'ensembles de données tels qu'ImageNet.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers