Découvrez la puissance de la détection d'objets : identifiez et localisez des objets dans des images ou des vidéos avec des modèles de pointe tels que YOLO. Explorez les applications du monde réel !
La détection d'objets est une tâche fondamentale de la vision par ordinateur qui consiste à identifier la présence, l'emplacement et le type d'un ou de plusieurs objets dans une image ou une vidéo. Contrairement à la classification d'images, qui attribue une étiquette unique à l'ensemble d'une image (par exemple, "chat"), la détection d'objets délimite précisément chaque instance d'objet à l'aide d'une boîte englobante et lui attribue une étiquette de classe (par exemple, "chat" aux coordonnées x, y, largeur, hauteur). Cette capacité permet aux machines de comprendre les scènes visuelles avec une plus grande granularité, imitant de plus près la perception visuelle humaine et permettant des interactions plus complexes avec l'environnement. Il s'agit d'une technologie de base qui sous-tend de nombreuses applications modernes d'intelligence artificielle (IA).
La détection d'objets combine généralement deux tâches principales : la classification des objets (déterminer "quel" objet est présent) et la localisation des objets (déterminer "où" l'objet est situé, généralement via les coordonnées de la boîte englobante). Les systèmes modernes de détection d'objets s'appuient fortement sur l'apprentissage profond (DL), en particulier les réseaux neuronaux convolutifs (CNN). Ces réseaux sont entraînés sur de grands ensembles de données annotés, tels que le populaire ensemble de données COCO ou Open Images V7, afin d'apprendre les caractéristiques visuelles et les modèles associés aux différentes classes d'objets.
Pendant l'opération (appelée inférence), le modèle entraîné traite une image ou une trame vidéo d'entrée. Il produit une liste d'objets potentiels, chacun représenté par une boîte englobante, une étiquette de classe prédite (par exemple, "voiture", "personne", "chien") et un score de confiance indiquant la certitude du modèle quant à la détection. Des techniques telles que la suppression non maximale (NMS) sont souvent utilisées pour affiner ces résultats en supprimant les boîtes redondantes qui se chevauchent pour le même objet. Les performances de ces modèles sont généralement évaluées à l'aide de mesures telles que l'intersection sur l'union (IoU ) et la précision moyenne (mAP).
Il est important de distinguer la détection d'objets des autres tâches liées à la vision par ordinateur :
Les modèles de détection d'objets se répartissent généralement en deux grandes catégories, qui diffèrent principalement par leur approche et leur compromis vitesse/précision :
La détection d'objets est une technologie fondamentale qui permet de nombreuses applications dans divers secteurs :
Le développement et le déploiement de modèles de détection d'objets impliquent divers outils et techniques. Les frameworks populaires d'apprentissage profond tels que PyTorch et TensorFlow fournissent les bibliothèques de base. Les bibliothèques de vision artificielle telles que OpenCV offrent des fonctions essentielles de traitement d'images.
Ultralytics fournit des modèles Ultralytics YOLO de pointe, y compris YOLOv8 et YOLO11, optimisés pour la vitesse et la précision. La plateforme Ultralytics HUB simplifie encore le flux de travail, en offrant des outils pour la gestion des ensembles de données, l'entraînement des modèles personnalisés, l'ajustement des hyperparamètres et le déploiement des modèles. La formation de modèles efficaces bénéficie souvent de stratégies d'augmentation des données et de techniques telles que l'apprentissage par transfert en utilisant des poids pré-entraînés provenant d'ensembles de données tels qu'ImageNet.