Tout ce qu'il faut savoir sur les tâches de vision par ordinateur

Abirami Vina

4 min lire

16 avril 2025

Découvrez comment fonctionnent les tâches de vision artificielle telles que le suivi d'objets, la segmentation d'instances et la classification d'images, et comment Ultralytics YOLO11 les prend en charge.

Grâce aux caméras et aux progrès de l'intelligence artificielle (IA), les ordinateurs et les machines sont désormais capables de voir le monde d'une manière similaire à celle des humains. Par exemple, ils peuvent reconnaître des personnes, suivre des objets et même comprendre le contexte de ce qui se passe dans une vidéo.

Plus précisément, la vision par ordinateur est la branche de l'IA qui permet aux machines de comprendre et d'interpréter les informations visuelles du monde qui les entoure. La vision par ordinateur implique une variété de tâches, chacune conçue pour extraire un type spécifique d'informations d'images ou de vidéos. Par exemple, la détection d'objets permet d'identifier et de localiser différents éléments dans une image, tandis que d'autres tâches telles que le suivi, la segmentation et l'estimation de la pose aident les machines à comprendre les mouvements, les formes et les positions avec plus de précision.

La tâche de vision par ordinateur utilisée pour une application particulière dépend du type d'informations dont vous avez besoin. Les modèles de vision artificielle comme Ultralytics YOLO11 prennent en charge diverses tâches de vision artificielle, ce qui en fait un choix fiable pour la création de systèmes d'IA de vision dans le monde réel.

Dans ce guide, nous allons examiner de plus près les tâches de vision par ordinateur prises en charge par des modèles tels que YOLO11. Nous étudierons le fonctionnement de chaque tâche et la manière dont elles sont utilisées dans différents secteurs d'activité. Commençons par le commencement !

Quelles sont les tâches de vision par ordinateur ?

Les tâches de vision par ordinateur visent à reproduire les capacités de vision humaine de différentes manières. Ces tâches peuvent aider les machines à détecter des objets, à suivre leurs mouvements, à estimer des poses et même à tracer le contour d'éléments individuels dans des images et des vidéos. En règle générale, les tâches de vision par ordinateur s'appuient sur des modèles qui décomposent les données visuelles en éléments plus petits afin de pouvoir interpréter plus clairement ce qui se passe. 

Les modèles d'IA visuelle tels que les modèles YOLO d'Ultralytics prennent en charge plusieurs tâches, telles que la détection, le suivi et la segmentation, dans un cadre unique. Grâce à cette polyvalence, les modèles YOLO11 sont faciles à adopter pour une grande variété de cas d'utilisation.

__wf_reserved_inherit
Fig. 1. Tâches de vision par ordinateur prises en charge par YOLO11.

L'analyse sportive en est un bon exemple. YOLO11 peut être utilisé pour détecter chaque joueur sur le terrain à l'aide de la détection d'objets, puis il peut les suivre tout au long du match grâce au suivi d'objets. Pendant ce temps, les capacités d'estimation de la pose de YOLO11 permettent d'analyser les mouvements et les techniques des joueurs, et la segmentation des instances permet de séparer chaque joueur de l'arrière-plan, ajoutant ainsi de la précision à l'analyse. 

L'ensemble de ces tâches de vision par ordinateur, compatibles avec YOLO11, crée une image complète de ce qui se passe pendant le jeu, donnant aux équipes des informations plus approfondies sur les performances des joueurs, les tactiques et la stratégie globale.

Aperçu des tâches de vision par ordinateur prises en charge par YOLO11

Maintenant que nous avons vu ce que sont les tâches de vision par ordinateur, nous allons nous plonger dans la compréhension de chacune des tâches prises en charge par YOLO11 de manière plus détaillée, à l'aide d'exemples concrets.

Support de YOLO11 pour la classification des images

Lorsque vous regardez une photo, la plupart des gens peuvent facilement dire si elle représente un chien, une montagne ou un panneau de signalisation, car nous avons tous appris à quoi ces objets ressemblent généralement. La classification des images aide les machines à faire de même en leur apprenant à classer et à étiqueter une image en fonction de son objet principal, qu'il s'agisse d'une "voiture", d'une "banane" ou d'une "radiographie avec fracture". Cette étiquette aide les systèmes de vision artificielle à comprendre le contenu visuel afin qu'ils puissent réagir ou prendre des décisions en conséquence.

Une application intéressante de cette tâche de vision par ordinateur est la surveillance de la faune. La classification des images peut être utilisée pour identifier différentes espèces animales à partir de photos prises dans la nature. En étiquetant automatiquement les images, les chercheurs peuvent suivre les populations, surveiller les schémas de migration et identifier plus facilement les espèces menacées afin de soutenir les efforts de conservation.

__wf_reserved_inherit
Fig. 2. Exemple d'utilisation de YOLO11 pour la classification d'images.

Capacités de détection d'objets de YOLO11

Si la classification des images est utile pour se faire une idée générale de leur contenu, elle n'attribue qu'une seule étiquette à l'ensemble de l'image. Dans les situations où des informations détaillées, telles que l'emplacement précis et l'identité de plusieurs objets, sont nécessaires, la détection d'objets devient essentielle.

La détection d'objets est le processus d'identification et de localisation d'objets individuels dans une image, souvent en dessinant des boîtes de délimitation autour d'eux. Ultralytics YOLO11 est particulièrement performant en matière de détection d'objets en temps réel, ce qui le rend idéal pour un large éventail d'applications.

Prenons l'exemple des solutions de vision par ordinateur utilisées dans les magasins de détail pour l'approvisionnement des rayons. La détection d'objets peut aider à compter les fruits, les légumes et d'autres articles, garantissant ainsi un inventaire précis. Dans les champs agricoles, la même technologie peut surveiller la maturité des cultures pour aider les agriculteurs à déterminer le meilleur moment pour récolter, et même faire la distinction entre les produits mûrs et ceux qui ne le sont pas.

__wf_reserved_inherit
Fig. 3. Détection de fruits à l'aide de l'Ultralytics YOLO11.

Utilisation de YOLO11 pour la segmentation des instances

La détection d'objets utilise des boîtes de délimitation pour identifier et localiser les objets dans une image, mais elle ne capture pas leurs formes exactes. C'est là qu'intervient la segmentation d'instance. Au lieu de dessiner une boîte autour d'un objet, la segmentation d'instance trace son contour précis.

En d'autres termes, plutôt que d'indiquer simplement qu'il y a une pomme dans cette zone, l'IA trace et remplit soigneusement la forme exacte de la pomme. Ce processus détaillé aide les systèmes d'IA à comprendre clairement les limites d'un objet, en particulier lorsque les objets sont proches les uns des autres.

La segmentation d'instances peut être appliquée à de nombreuses applications, des inspections d'infrastructures aux études géologiques. Par exemple, les données des études géologiques peuvent être analysées à l'aide de YOLO11 pour segmenter les fissures ou les anomalies de surface, grandes ou petites. En traçant des limites précises autour de ces anomalies, les ingénieurs peuvent localiser les problèmes et les résoudre avant le début d'un projet. 

__wf_reserved_inherit
Fig. 4. Segmentation des fissures par YOLO11.

Suivi d'objets : Suivi d'objets à travers les images avec YOLO11

Jusqu'à présent, les tâches de vision par ordinateur que nous avons examinées se concentrent sur le contenu d'une seule image. Cependant, lorsqu'il s'agit de vidéos, nous avons besoin d'informations qui vont au-delà d'une seule image. La tâche de suivi d'objet peut être utilisée à cette fin.

La fonction de suivi d'objet de YOLO11 permet de suivre un objet spécifique, comme une personne ou une voiture, pendant qu'il se déplace sur une série d'images vidéo. Même si l'angle de la caméra change ou si d'autres objets apparaissent, le système continue à suivre la même cible. 

Cette caractéristique est cruciale pour les applications qui nécessitent un suivi dans le temps, comme le suivi des voitures dans la circulation. En fait, YOLO11 peut suivre avec précision les véhicules, en suivant chacun d'entre eux afin d'estimer leur vitesse en temps réel. Le suivi d'objets est donc un élément clé de systèmes tels que la surveillance du trafic.

__wf_reserved_inherit
Fig. 5. Le support de YOLO11 pour le suivi d'objets peut être utilisé pour l'estimation de la vitesse.

Détection de boîtes de délimitation orientées (OBB) à l'aide de YOLO11

Les objets du monde réel ne sont pas toujours parfaitement alignés - ils peuvent être inclinés, de côté ou positionnés à des angles bizarres. Par exemple, sur les images satellites, les navires et les bâtiments apparaissent souvent tournés. 

Les méthodes traditionnelles de détection d'objets utilisent des boîtes rectangulaires fixes qui ne s'adaptent pas à l'orientation d'un objet, ce qui rend difficile la capture précise de ces formes tournées. La détection par boîte englobante orientée (OBB) résout ce problème en utilisant des boîtes qui pivotent pour s'adapter parfaitement à un objet, en s'alignant sur son angle pour une détection plus précise.

En ce qui concerne la surveillance des ports, la prise en charge de la détection OBB par YOLO11 permet d'identifier et de suivre avec précision les navires quelle que soit leur orientation, ce qui garantit que chaque navire entrant ou sortant du port est correctement surveillé. Cette détection précise fournit des informations en temps réel sur la position et les mouvements des navires, ce qui est essentiel pour gérer les ports très fréquentés et prévenir les collisions.

__wf_reserved_inherit
Fig. 6. Détection des bateaux à l'aide de la détection OBB et de YOLO11.

Estimation de la pose et YOLO11 : suivi des points clés 

L'estimation de la pose est une technique de vision par ordinateur qui suit des points clés, tels que les articulations, les membres ou d'autres marqueurs, afin de comprendre comment un objet se déplace. Plutôt que de traiter un objet ou un corps entier comme une unité complète, cette méthode le décompose en ses parties principales. Cela permet d'analyser en détail les mouvements, les gestes et les interactions.

L'une des applications courantes de cette technologie est l'estimation de la pose humaine. En suivant les positions des différentes parties du corps en temps réel, elle fournit une image claire de la façon dont une personne se déplace. Ces informations peuvent être utilisées à diverses fins, depuis la reconnaissance des gestes et le suivi des activités jusqu'à l'analyse des performances sportives. 

De même, dans le cadre de la rééducation physique, les thérapeutes peuvent utiliser l'estimation de la pose humaine et YOLO11 pour surveiller les mouvements des patients pendant les exercices. Cela permet de s'assurer que chaque mouvement est effectué correctement tout en suivant les progrès réalisés au fil du temps.

__wf_reserved_inherit
Fig. 7. YOLO11 peut surveiller une séance d'entraînement en utilisant l'estimation de la pose.

Exploration de la manière dont YOLO11 prend en charge diverses tâches de vision par ordinateur

Maintenant que nous avons exploré en détail toutes les tâches de vision par ordinateur prises en charge par YOLO11, voyons comment YOLO11 les prend en charge. 

YOLO11 n'est pas seulement un modèle - c'est une suite de variantes de modèles spécialisés, chacun conçu pour une tâche spécifique de vision par ordinateur. Cela fait de YOLO11 un outil polyvalent qui peut être adapté à un large éventail d'applications. Vous pouvez également affiner ces modèles sur des ensembles de données personnalisés afin de relever les défis uniques de vos projets.

Voici les variantes du modèle YOLO11 pré-entraînées pour des tâches visuelles spécifiques :

  • YOLO11: Ce modèle détecte et étiquette plusieurs objets en temps réel, ce qui le rend idéal pour la reconnaissance visuelle à grande vitesse.

  • YOLO11-seg: Cette variante se concentre sur la segmentation en utilisant des masques détaillés pour séparer les objets de leur arrière-plan.

  • YOLO11-obb: ce modèle est conçu pour détecter les objets en rotation en dessinant des boîtes de délimitation qui s'alignent sur l'orientation de chaque objet.

  • YOLO11-cls: Cette variante classe les images en leur attribuant une étiquette de catégorie unique basée sur le contenu global.

  • YOLO11-pose: ce modèle estime les points clés du corps pour suivre la posture, la position des membres et les mouvements.

Chaque variante est disponible en différentes tailles, ce qui permet aux utilisateurs de choisir le bon équilibre entre vitesse et précision en fonction de leurs besoins spécifiques.

Principaux enseignements

Les tâches de vision par ordinateur modifient la manière dont les machines comprennent le monde et interagissent avec lui. En décomposant les images et les vidéos en éléments clés, ces technologies facilitent l'analyse détaillée des objets, des mouvements et des interactions. 

Qu'il s'agisse d'améliorer la sécurité routière et les performances sportives ou de rationaliser les processus industriels, des modèles comme YOLO11 peuvent fournir des informations en temps réel qui stimulent l'innovation. Au fur et à mesure de son évolution, Vision AI jouera probablement un rôle de plus en plus important dans la manière dont nous interprétons et utilisons les données visuelles au quotidien.

Rejoignez notre communauté et visitez notre dépôt GitHub pour voir l'IA en action. Explorez nos options de licence et découvrez l'IA dans l'agriculture et la vision par ordinateur dans la fabrication sur nos pages de solutions. 

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers