En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment fonctionnent les tâches de vision artificielle telles que le suivi d'objets, la segmentation d'instances et la classification d'images, et comment Ultralytics YOLO11 les prend en charge.
Grâce aux caméras et aux progrès de l'intelligence artificielle (IA), les ordinateurs et les machines sont désormais capables de voir le monde d'une manière similaire à celle des humains. Par exemple, ils peuvent reconnaître des personnes, track objets et même comprendre le contexte de ce qui se passe dans une vidéo.
Plus précisément, la vision par ordinateur est la branche de l'IA qui permet aux machines de comprendre et d'interpréter les informations visuelles du monde qui les entoure. La vision par ordinateur implique une variété de tâches, chacune conçue pour extraire un type spécifique d'informations à partir d'images ou de vidéos. Par exemple, la détection d'objets permet d'identifier et de localiser différents éléments dans une image, tandis que d'autres tâches comme le suivi, la segmentation et l'estimation de la pose aident les machines à comprendre plus précisément les mouvements, les formes et les positions.
La tâche de vision par ordinateur utilisée pour une application particulière dépend du type d'informations dont vous avez besoin. Les modèles de vision par ordinateur comme Ultralytics YOLO11 prennent en charge diverses tâches de vision par ordinateur, ce qui en fait un choix fiable pour la création de systèmes d'IA de vision dans le monde réel.
Dans ce guide, nous allons examiner de plus près les tâches de vision par ordinateur prises en charge par des modèles tels que YOLO11. Nous étudierons le fonctionnement de chaque tâche et la manière dont elles sont utilisées dans différents secteurs d'activité. Commençons par le commencement !
Quelles sont les tâches de vision par ordinateur ?
Les tâches de vision par ordinateur visent à reproduire les capacités de vision humaine de différentes manières. Ces tâches peuvent aider les machines à detect objets, à track leurs mouvements, à estimer des poses et même à délimiter des éléments individuels dans des images et des vidéos. En règle générale, les tâches de vision par ordinateur s'appuient sur des modèles qui décomposent les données visuelles en éléments plus petits afin de pouvoir interpréter plus clairement ce qui se passe.
Les modèles d'IA visuelle comme les modèlesYOLO d'Ultralytics prennent en charge plusieurs tâches, telles que la détection, le suivi et la segmentation, dans un cadre unique. Grâce à cette polyvalence, les modèles YOLO11 sont faciles à adopter pour une grande variété de cas d'utilisation.
Fig. 1. Tâches de vision par ordinateur prises en charge par YOLO11.
L'analyse sportive en est un bon exemple. YOLO11 peut être utilisé pour detect chaque joueur sur le terrain à l'aide de la détection d'objets, puis il peut les suivre tout au long du match grâce au suivi d'objets. Pendant ce temps, les capacités d'estimation de la pose de YOLO11 permettent d'analyser les mouvements et les techniques des joueurs, et la segmentation des instances permet de séparer chaque joueur de l'arrière-plan, ajoutant ainsi de la précision à l'analyse.
L'ensemble de ces tâches de vision par ordinateur YOLO11 crée une image complète de ce qui se passe pendant le jeu, donnant aux équipes des informations plus approfondies sur les performances des joueurs, les tactiques et la stratégie globale.
Aperçu des tâches de vision par ordinateur prises en charge par YOLO11
Maintenant que nous avons vu ce que sont les tâches de vision par ordinateur, nous allons nous plonger dans la compréhension de chacune des tâches prises en charge par YOLO11 de manière plus détaillée, à l'aide d'exemples concrets.
Support de YOLO11pour la classification des images
Lorsque vous regardez une photo, la plupart des gens peuvent facilement dire si elle représente un chien, une montagne ou un panneau de signalisation, car nous avons tous appris à quoi ces objets ressemblent généralement. La classification des images aide les machines à faire de même en leur apprenant à classify et à étiqueter une image en fonction de son objet principal, qu'il s'agisse d'une "voiture", d'une "banane" ou d'une "radiographie avec fracture". Cette étiquette aide les systèmes de vision artificielle à comprendre le contenu visuel afin qu'ils puissent réagir ou prendre des décisions en conséquence.
Une application intéressante de cette tâche de vision par ordinateur est la surveillance de la faune. La classification des images peut être utilisée pour identifier différentes espèces animales à partir de photos prises dans la nature. En étiquetant automatiquement les images, les chercheurs peuvent suivre track populations, surveiller les schémas de migration et identifier plus facilement les espèces menacées afin de soutenir les efforts de conservation.
Fig. 2. Exemple d'utilisation de YOLO11 pour la classification d'images.
Capacités de détection d'objets de YOLO11
Bien que la classification d'images soit utile pour avoir une idée générale du contenu d'une image, elle n'attribue qu'une seule étiquette à l'ensemble de l'image. Dans les situations où des informations détaillées, telles que l'emplacement précis et l'identité de plusieurs objets, sont requises, la détection d'objets devient essentielle.
La détection d'objets est le processus d'identification et de localisation d'objets individuels dans une image, souvent en dessinant des boîtes de délimitation autour d'eux. Ultralytics YOLO11 est particulièrement performant en matière de détection d'objets en temps réel, ce qui le rend idéal pour un large éventail d'applications.
Prenons, par exemple, les solutions de vision par ordinateur utilisées dans les commerces de détail pour le réapprovisionnement des rayons. La détection d'objets peut aider à compter les fruits, les légumes et autres articles, assurant ainsi un inventaire précis. Dans les champs agricoles, la même technologie peut surveiller la maturité des cultures pour aider les agriculteurs à déterminer le meilleur moment pour récolter, et même à distinguer les produits mûrs des produits non mûrs.
Fig. 3. Détection de fruits à l'aide de l'Ultralytics YOLO11.
Utilisation de YOLO11 pour la segmentation des instances
La détection d'objets utilise des boîtes englobantes pour identifier et localiser les objets dans une image, mais elle ne capture pas leurs formes exactes. C'est là que la segmentation d'instance entre en jeu. Au lieu de dessiner une boîte autour d'un objet, la segmentation d'instance trace son contour précis.
Vous pouvez le voir de cette façon : plutôt que de simplement indiquer qu'« il y a une pomme dans cette zone », il délimite et remplit soigneusement la forme exacte de la pomme. Ce processus détaillé aide les systèmes d'IA à comprendre clairement les limites d'un objet, en particulier lorsque les objets sont proches les uns des autres.
La segmentation d'instances peut être appliquée à de nombreuses applications, des inspections d'infrastructures aux études géologiques. Par exemple, les données des études géologiques peuvent être analysées à l'aide de YOLO11 pour segment fissures ou les anomalies de surface, grandes ou petites. En traçant des limites précises autour de ces anomalies, les ingénieurs peuvent localiser les problèmes et les résoudre avant le début d'un projet.
Fig. 4. Segmentation des fissures YOLO11.
Suivi d'objets : Suivi d'objets à travers les images avec YOLO11
Jusqu'à présent, les tâches de vision par ordinateur que nous avons examinées se concentrent sur ce qui se trouve dans une seule image. Cependant, lorsqu'il s'agit de vidéos, nous avons besoin d'informations qui vont au-delà d'une seule image. La tâche de suivi d'objets peut être utilisée à cette fin.
La fonction de suivi d'objet de YOLO11 permet de suivre un objet spécifique, comme une personne ou une voiture, pendant qu'il se déplace sur une série d'images vidéo. Même si l'angle de la caméra change ou si d'autres objets apparaissent, le système continue à suivre la même cible.
Cette caractéristique est cruciale pour les applications qui nécessitent un suivi dans le temps, comme le suivi des voitures dans la circulation. En fait, YOLO11 peut suivre avec précision track véhicules, en suivant chacun d'entre eux afin d'estimer leur vitesse en temps réel. Le suivi d'objets est donc un élément clé de systèmes tels que la surveillance du trafic.
Fig. 5. Le support de YOLO11pour le suivi d'objets peut être utilisé pour l'estimation de la vitesse.
Détection de boîtes de délimitation orientées (OBB) à l'aide de YOLO11
Les objets dans le monde réel ne sont pas toujours parfaitement alignés : ils peuvent être inclinés, de côté ou positionnés à des angles bizarres. Par exemple, dans les images satellite, les navires et les bâtiments apparaissent souvent en rotation.
Les méthodes traditionnelles de détection d'objets utilisent des boîtes rectangulaires fixes qui ne s'ajustent pas à l'orientation d'un objet, ce qui rend difficile la capture précise de ces formes pivotées. La détection de boîtes englobantes orientées (OBB) résout ce problème en utilisant des boîtes qui pivotent pour s'adapter parfaitement à un objet, en s'alignant sur son angle pour une détection plus précise.
En ce qui concerne la surveillance des ports, la prise en charge de la détection OBB par YOLO11permet d'identifier et de track avec précision track navires quelle que soit leur orientation, ce qui garantit que chaque navire entrant ou sortant du port est correctement surveillé. Cette détection précise fournit des informations en temps réel sur la position et les mouvements des navires, ce qui est essentiel pour gérer les ports très fréquentés et prévenir les collisions.
Fig. 6. Détection des bateaux à l'aide de la détection OBB et de YOLO11.
Estimation de la pose et YOLO11: suivi des points clés
L'estimation de pose est une technique de vision par ordinateur qui suit les points clés, tels que les articulations, les membres ou d'autres marqueurs, pour comprendre comment un objet se déplace. Plutôt que de traiter un objet ou un corps entier comme une unité complète, cette méthode le décompose en ses parties clés. Cela permet d'analyser en détail les mouvements, les gestes et les interactions.
Une application courante de cette technologie est l'estimation de la pose humaine. En suivant les positions des différentes parties du corps en temps réel, elle fournit une image claire de la façon dont une personne se déplace. Ces informations peuvent être utilisées à diverses fins, de la reconnaissance des gestes et de la surveillance de l'activité à l'analyse des performances sportives.
De même, dans le cadre de la rééducation physique, les thérapeutes peuvent utiliser l'estimation de la pose humaine et YOLO11 pour surveiller les mouvements des patients pendant les exercices. Cela permet de s'assurer que chaque mouvement est effectué correctement tout en suivant les progrès réalisés au fil du temps.
Fig. 7. YOLO11 peut surveiller une séance d'entraînement en utilisant l'estimation de la pose.
Exploration de la manière dont YOLO11 prend en charge diverses tâches de vision par ordinateur
Maintenant que nous avons exploré en détail toutes les tâches de vision par ordinateur prises en charge par YOLO11 , voyons comment YOLO11 les prend en charge.
YOLO11 n'est pas seulement un modèle - c'est une suite de variantes de modèles spécialisés, chacun conçu pour une tâche spécifique de vision par ordinateur. Cela fait de YOLO11 un outil polyvalent qui peut être adapté à un large éventail d'applications. Vous pouvez également affiner ces modèles sur des ensembles de données personnalisés afin de relever les défis uniques de vos projets.
YOLO11: Ce modèle détecte et étiquette plusieurs objets en temps réel, ce qui le rend idéal pour la reconnaissance visuelle à grande vitesse.
YOLO11: Cette variante se concentre sur la segmentation en utilisant des masques détaillés pour séparer les objets de leur arrière-plan.
obb: ce modèle est conçu pour detect objets en rotation en dessinant des boîtes de délimitation qui s'alignent sur l'orientation de chaque objet.
YOLO11: Cette variante classe les images en leur attribuant une étiquette de catégorie unique basée sur le contenu global.
YOLO11: ce modèle estime les points clés du corps pour track posture, la position des membres et les mouvements.
Chaque variante est disponible en différentes tailles, permettant aux utilisateurs de choisir le juste équilibre entre vitesse et précision pour leurs besoins spécifiques.
Principaux points à retenir
Les tâches de vision artificielle transforment la façon dont les machines comprennent le monde et interagissent avec lui. En décomposant les images et les vidéos en éléments clés, ces technologies facilitent l'analyse détaillée des objets, des mouvements et des interactions.
Qu'il s'agisse d'améliorer la sécurité routière et les performances sportives ou de rationaliser les processus industriels, des modèles comme YOLO11 peuvent fournir des informations en temps réel qui stimulent l'innovation. Au fur et à mesure de son évolution, Vision AI jouera probablement un rôle de plus en plus important dans la manière dont nous interprétons et utilisons les données visuelles au quotidien.