Apprends comment fonctionnent les tâches de vision artificielle telles que le suivi des objets, la segmentation des instances et la classification des images, et comment Ultralytics YOLO11 les prend en charge.
Grâce aux caméras et aux progrès de l'intelligence artificielle (IA), les ordinateurs et les machines sont désormais capables de voir le monde d'une manière similaire à celle des humains. Par exemple, ils peuvent reconnaître des personnes, suivre des objets et même comprendre le contexte de ce qui se passe dans une vidéo.
Plus précisément, la vision par ordinateur est la branche de l'IA qui permet aux machines de comprendre et d'interpréter les informations visuelles du monde qui les entoure. La vision par ordinateur implique une variété de tâches, chacune conçue pour extraire un type spécifique d'informations des images ou des vidéos. Par exemple, la détection d'objets permet d'identifier et de localiser les différents éléments d'une image, tandis que d'autres tâches comme le suivi, la segmentation et l'estimation de la pose aident les machines à comprendre les mouvements, les formes et les positions avec plus de précision.
La tâche de vision par ordinateur utilisée pour une application particulière dépend du type d'informations dont tu as besoin. Les modèles de vision par ordinateur comme Ultralytics YOLO11 prennent en charge diverses tâches de vision par ordinateur, ce qui en fait un choix fiable pour construire des systèmes d'IA de vision du monde réel.
Dans ce guide, nous allons examiner de plus près les tâches de vision par ordinateur prises en charge par des modèles comme YOLO11. Nous explorerons le fonctionnement de chaque tâche et la façon dont elles sont utilisées dans différents secteurs d'activité. Commençons par le commencement !
Les tâches de vision par ordinateur visent à reproduire les capacités de vision humaine de différentes manières. Ces tâches peuvent aider les machines à détecter des objets, à suivre leurs mouvements, à estimer des poses et même à tracer le contour d'éléments individuels dans des images et des vidéos. Généralement, les tâches de vision par ordinateur sont rendues possibles par des modèles qui décomposent les données visuelles en plus petites parties afin d'interpréter plus clairement ce qui se passe.
Les modèles d'IA de vision comme les modèlesYOLO Ultralytics prennent en charge plusieurs tâches, telles que la détection, le suivi et la segmentation, dans un seul et même cadre. Grâce à cette polyvalence, les modèles YOLO11 sont faciles à adopter pour une grande variété de cas d'utilisation.
L'analyse sportive en est un bon exemple. YOLO11 peut être utilisé pour détecter chaque joueur sur le terrain à l'aide de la détection d'objets, puis il peut les suivre tout au long du match grâce au suivi d'objets. Pendant ce temps, les capacités d'estimation de la pose de YOLO11 peuvent aider à analyser les mouvements et les techniques des joueurs, et la segmentation des instances peut séparer chaque joueur de l'arrière-plan, ajoutant ainsi de la précision à l'analyse.
Ensemble, ces tâches de vision par ordinateur YOLO11 créent une image complète de ce qui se passe pendant le jeu, donnant aux équipes des informations plus approfondies sur les performances des joueurs, les tactiques et la stratégie globale.
Maintenant que nous avons jeté un coup d'œil sur ce que sont les tâches de vision par ordinateur, plongeons dans la compréhension de chacune d'entre elles prises en charge par YOLO11 plus en détail, à l'aide d'exemples du monde réel.
Lorsque tu regardes une photo, la plupart des gens peuvent facilement dire si elle montre un chien, une montagne ou un panneau de signalisation parce que nous avons tous appris à quoi ces choses ressemblent généralement. La classification des images aide les machines à faire de même en leur apprenant à classer et à étiqueter une image en fonction de son objet principal - qu'il s'agisse d'une "voiture", d'une "banane" ou d'une "radiographie avec fracture". Cette étiquette aide les systèmes de vision artificielle à comprendre le contenu visuel afin qu'ils puissent réagir ou prendre des décisions en conséquence.
Une application intéressante de cette tâche de vision par ordinateur est la surveillance de la faune. La classification des images peut être utilisée pour identifier différentes espèces animales à partir de photos prises dans la nature. En étiquetant automatiquement les images, les chercheurs peuvent suivre les populations, surveiller les schémas de migration et identifier plus facilement les espèces menacées afin de soutenir les efforts de conservation.
Bien que la classification des images soit utile pour avoir une idée générale de ce qu'une image contient, elle n'attribue qu'une seule étiquette à l'ensemble de l'image. Dans les situations où des informations détaillées, telles que l'emplacement précis et l'identité de plusieurs objets, sont nécessaires, la détection des objets devient essentielle.
La détection d'objets est le processus d'identification et de localisation d'objets individuels dans une image, souvent en dessinant des boîtes de délimitation autour d'eux. Ultralytics YOLO11 est particulièrement performant en matière de détection d'objets en temps réel, ce qui le rend idéal pour un large éventail d'applications.
Prends, par exemple, les solutions de vision par ordinateur utilisées dans les magasins de détail pour l'approvisionnement des rayons. La détection d'objets peut aider à compter les fruits, les légumes et d'autres articles, garantissant ainsi un inventaire précis. Dans les champs agricoles, la même technologie peut surveiller la maturité des cultures pour aider les agriculteurs à déterminer le meilleur moment pour récolter, et même faire la distinction entre les produits mûrs et ceux qui ne le sont pas.
La détection d'objets utilise des boîtes de délimitation pour identifier et localiser les objets dans une image, mais elle ne capture pas leurs formes exactes. C'est là que la segmentation d'instance entre en jeu. Au lieu de dessiner une boîte autour d'un objet, la segmentation d'instance trace son contour précis.
Tu peux l'imaginer ainsi : plutôt que d'indiquer simplement qu'" il y a une pomme dans cette zone ", il dessine soigneusement les contours de la pomme et en remplit la forme exacte. Ce processus détaillé aide les systèmes d'IA à comprendre clairement les limites d'un objet, en particulier lorsque les objets sont proches les uns des autres.
La segmentation des instances peut être appliquée à de nombreuses applications, de l'inspection des infrastructures aux études géologiques. Par exemple, les données des études géologiques peuvent être analysées à l'aide de YOLO11 pour segmenter les fissures ou les anomalies de surface, qu'elles soient grandes ou petites. En traçant des limites précises autour de ces anomalies, les ingénieurs peuvent repérer les problèmes et les résoudre avant le début d'un projet.
Jusqu'à présent, les tâches de vision par ordinateur que nous avons examinées se concentrent sur le contenu d'une seule image. Cependant, lorsqu'il s'agit de vidéos, nous avons besoin d'informations qui vont au-delà d'une seule image. La tâche de suivi d'objet peut être utilisée à cette fin.
La capacité de suivi d'objet de YOLO11 permet de suivre un objet spécifique, comme une personne ou une voiture, pendant qu'il se déplace sur une série d'images vidéo. Même si l'angle de la caméra change ou si d'autres objets apparaissent, le système continue à suivre la même cible.
Ceci est crucial pour les applications qui nécessitent un suivi dans le temps, comme le suivi des voitures dans la circulation. En fait, YOLO11 peut suivre avec précision les véhicules, en suivant chaque voiture pour aider à estimer leur vitesse en temps réel. Cela fait du suivi des objets un élément clé des systèmes tels que la surveillance du trafic.
Les objets du monde réel ne sont pas toujours parfaitement alignés - ils peuvent être inclinés, de côté ou positionnés à des angles bizarres. Par exemple, sur les images satellites, les bateaux et les bâtiments apparaissent souvent tournés.
Les méthodes traditionnelles de détection d'objets utilisent des boîtes rectangulaires fixes qui ne s'ajustent pas à l'orientation d'un objet, ce qui rend difficile la capture précise de ces formes tournées. La détection par boîte de délimitation orientée (OBB) résout ce problème en utilisant des boîtes qui pivotent pour s'adapter parfaitement à un objet, en s'alignant sur son angle pour une détection plus précise.
En ce qui concerne la surveillance des ports, la prise en charge de la détection OBB par YOLO11peut aider à identifier et à suivre avec précision les navires quelle que soit leur orientation, ce qui permet de s'assurer que chaque navire entrant ou sortant du port est correctement surveillé. Cette détection précise fournit des informations en temps réel sur les positions et les mouvements des navires, ce qui est essentiel pour gérer les ports très fréquentés et prévenir les collisions.
L'estimation de la pose est une technique de vision par ordinateur qui suit des points clés, tels que les articulations, les membres ou d'autres marqueurs, pour comprendre comment un objet se déplace. Plutôt que de traiter un objet ou un corps entier comme une unité complète, cette méthode le décompose en ses parties clés. Cela permet d'analyser en détail les mouvements, les gestes et les interactions.
L'une des applications courantes de cette technologie est l'estimation de la pose humaine. En suivant les positions des différentes parties du corps en temps réel, elle fournit une image claire de la façon dont une personne se déplace. Ces informations peuvent être utilisées à diverses fins, de la reconnaissance des gestes et du suivi des activités à l'analyse des performances sportives.
De même, dans le cadre de la rééducation physique, les thérapeutes peuvent utiliser l'estimation de la pose humaine et YOLO11 pour surveiller les mouvements des patients pendant les exercices. Cela permet de s'assurer que chaque mouvement est effectué correctement tout en suivant les progrès réalisés au fil du temps.
Maintenant que nous avons exploré en détail toutes les tâches de vision par ordinateur prises en charge par YOLO11 , voyons comment YOLO11 les prend en charge.
YOLO11 n'est pas qu'un seul modèle - c'est une suite de variantes de modèles spécialisés, chacun conçu pour une tâche spécifique de vision par ordinateur. Cela fait de YOLO11 un outil polyvalent qui peut être adapté à un large éventail d'applications. Tu peux également affiner ces modèles sur des ensembles de données personnalisés pour relever les défis uniques de tes projets.
Voici les variantes du modèleYOLO11 pré-entraînées pour des tâches visuelles spécifiques :
Chaque variante est disponible en différentes tailles, ce qui permet aux utilisateurs de choisir le bon équilibre entre vitesse et précision pour leurs besoins spécifiques.
Les tâches de vision par ordinateur changent la façon dont les machines comprennent et interagissent avec le monde. En décomposant les images et les vidéos en éléments clés, ces technologies facilitent l'analyse détaillée des objets, des mouvements et des interactions.
De l'amélioration de la sécurité routière et des performances sportives à la rationalisation des processus industriels, des modèles comme YOLO11 peuvent fournir des informations en temps réel qui favorisent l'innovation. À mesure que Vision AI continue d'évoluer, elle jouera probablement un rôle de plus en plus important dans la façon dont nous interprétons et utilisons les données visuelles au quotidien.
Rejoins notre communauté et visite notre dépôt GitHub pour voir l'IA en action. Explore nos options de licence et découvre plus de choses sur l'IA dans l'agriculture et la vision par ordinateur dans la fabrication sur nos pages de solutions.
Commence ton voyage avec le futur de l'apprentissage automatique.