En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Plongez en profondeur avec nous dans les applications de la vision par ordinateur. Nous allons également passer en revue diverses tâches de vision par ordinateur comme la détection d'objets et la segmentation.
Lorsque nous avons exploré l'histoire des modèles de vision par ordinateur, nous avons vu comment la vision par ordinateur a évolué et le chemin qui a mené aux modèles de vision avancés que nous avons aujourd'hui. Les modèles modernes comme Ultralytics YOLOv8 prennent en charge plusieurs tâches de vision par ordinateur et sont utilisés dans diverses applications passionnantes.
Dans cet article, nous examinerons les bases de la vision par ordinateur et des modèles de vision. Nous aborderons leur fonctionnement et leurs diverses applications dans différents secteurs. Les innovations en matière de vision par ordinateur sont partout, façonnant silencieusement notre monde. Découvrons-les une par une !
Qu'est-ce que la vision par ordinateur ?
L'intelligence artificielle (IA) est un terme générique qui englobe de nombreuses technologies visant à reproduire une partie de l'intelligence humaine. Un tel sous-domaine de l'IA est la vision par ordinateur. La vision par ordinateur se concentre sur le fait de donner aux machines des yeux qui peuvent voir, observer et comprendre leur environnement.
Tout comme la vision humaine, les solutions de vision par ordinateur visent à distinguer les objets, à calculer les distances et à détecter les mouvements. Cependant, contrairement aux humains, qui disposent de toute une vie d'expériences pour les aider à voir et à comprendre, les ordinateurs s'appuient sur de grandes quantités de données, des caméras haute définition et des algorithmes complexes.
Fig 1. Comparaison entre la vision humaine et la vision par ordinateur.
Les systèmes de vision artificielle peuvent traiter et analyser des données visuelles telles que des images et des vidéos à des vitesses et avec une précision incroyables. La capacité d'analyser rapidement et avec précision de grandes quantités d'informations visuelles fait de la vision artificielle un outil puissant dans divers secteurs, allant de la fabrication aux soins de santé.
Les modèles de vision prennent en charge diverses tâches de vision par ordinateur
Les modèles de vision par ordinateur sont au cœur de toute application de vision par ordinateur. Il s'agit essentiellement d'algorithmes de calcul alimentés par des techniques d'apprentissage profond conçus pour donner aux machines la capacité d'interpréter et de comprendre les informations visuelles. Les modèles de vision permettent d'effectuer des tâches essentielles de vision par ordinateur, allant de la classification d'images à la détection d'objets. Examinons de plus près certaines de ces tâches et leurs cas d'utilisation plus en détail.
Classification d'images
La classification d'images consiste à catégoriser et à étiqueter les images dans des classes ou des catégories prédéfinies. Un modèle de vision tel que YOLOv8 peut être entraîné sur de grands ensembles de données d'images étiquetées. Pendant l'entraînement, le modèle apprend à reconnaître les motifs et les caractéristiques associés à chaque classe. Une fois entraîné, il peut prédire la catégorie de nouvelles images non vues en analysant leurs caractéristiques et en les comparant aux motifs appris.
Fig 2. Un exemple de classification d'images. (source : towardsdatascience.com)
Il existe différents types de classification d'images. Par exemple, lorsque vous traitez des images médicales, vous pouvez utiliser la classification binaire pour diviser les images en deux groupes, comme sain ou malade. Un autre type est la classification multiclasse. Elle peut aider à classer les images en plusieurs groupes, comme la classification de différents animaux dans une ferme comme les porcs, les chèvres et les vaches. Ou, disons que vous voulez classer les animaux en groupes et sous-groupes, comme classer les animaux en mammifères et oiseaux, puis en espèces telles que les lions, les tigres, les aigles et les moineaux ; la classification hiérarchique serait la meilleure option.
Détection d'objets
La détection d'objets est le processus d'identification et de localisation d'objets dans des images et des trames vidéo à l'aide de la vision par ordinateur. Elle comprend deux tâches : la localisation d'objets, qui consiste à dessiner des boîtes englobantes autour des objets, et la classification d'objets, qui identifie la catégorie de chaque objet. Sur la base des annotations de boîtes englobantes, un modèle de vision peut apprendre à reconnaître les motifs et les caractéristiques spécifiques à chaque catégorie d'objets et à prédire la présence et l'emplacement de ces objets dans de nouvelles images non vues.
Fig 3. Détection d'objets YOLOv8 utilisée pour détecter les joueurs sur un terrain de football.
La détection d'objets a de nombreux cas d'utilisation dans différents secteurs, allant du sport à la biologie marine. Par exemple, dans le commerce de détail, la technologie Just Walk Out d'Amazon utilise la détection d'objets pour automatiser le passage en caisse en identifiant les articles que les clients prennent. Une combinaison de vision par ordinateur et de données de capteurs permet aux clients de prendre leurs articles et de partir sans faire la queue.
Voici un aperçu plus détaillé de son fonctionnement :
Des caméras montées au plafond capturent les mouvements des clients dans le magasin, et ces séquences vidéo sont traitées en temps réel par des modèles de vision.
La détection d'objets est utilisée pour détecter le produit exact qu'un client prend et place dans son panier afin de mettre à jour son panier virtuel en conséquence.
Les capteurs de poids sur les étagères améliorent la précision en détectant le retrait ou le remplacement d'articles.
Lorsque le client quitte le magasin, la détection d'objets et la technologie de reconnaissance faciale peuvent être utilisées pour confirmer que le client est parti, et ses informations de paiement, comme une carte de crédit, peuvent être utilisées pour le facturer automatiquement.
Segmentation sémantique et d'instance
La segmentation sémantique et la segmentation d'instance sont des tâches de vision par ordinateur qui aident à partitionner les images en segments significatifs. La segmentation sémantique classe les pixels en fonction de leur signification sémantique et traite tous les objets d'une catégorie comme une seule entité avec le même label. Elle est adaptée à l'étiquetage d'objets innombrables comme "le ciel" ou "l'océan" ou de groupes comme "les feuilles" ou "l'herbe".
La segmentation d'instance, quant à elle, peut distinguer différentes instances de la même classe en attribuant une étiquette unique à chaque objet détecté. Vous pouvez utiliser la segmentation d'instance pour segmenter des objets dénombrables où le nombre et l'indépendance des objets sont importants. Elle permet une identification et une différenciation plus précises.
Fig 4. Un exemple de segmentation sémantique et d'instance.
Nous pouvons comprendre plus clairement le contraste entre la segmentation sémantique et la segmentation d'instance avec un exemple lié aux voitures autonomes. La segmentation sémantique est idéale pour les tâches qui nécessitent de comprendre le contenu d'une scène et peut être utilisée dans les véhicules autonomes pour classer les éléments sur la route, comme les passages pour piétons et les panneaux de signalisation. Pendant ce temps, la segmentation d'instance peut être utilisée dans les véhicules autonomes pour identifier les piétons, les véhicules et les obstacles individuels.
Estimation de pose
L'estimation de pose est une tâche de vision par ordinateur axée sur la détection et le suivi des points clés des poses d'un objet dans des images ou des vidéos. Elle est le plus souvent utilisée pour l'estimation de la pose humaine, avec des points clés comprenant des zones comme les épaules et les genoux. L'estimation de la pose d'un humain nous aide à comprendre et à reconnaître les actions et les mouvements qui sont essentiels pour diverses applications.
Fig 5. Un exemple d'estimation de pose utilisant YOLOv8.
L'estimation de la pose peut être utilisée dans le sport pour analyser la façon dont les athlètes bougent. La NBA utilise l'estimation de la pose pour étudier les mouvements et les positions des joueurs pendant le match. En suivant les points clés comme les épaules, les coudes, les genoux et les chevilles, l'estimation de la pose fournit des informations détaillées sur les mouvements des joueurs. Ces informations aident les entraîneurs à développer de meilleures stratégies, à optimiser les programmes d'entraînement et à effectuer des ajustements en temps réel pendant les matchs. De plus, les données peuvent aider à surveiller la fatigue des joueurs et le risque de blessure afin d'améliorer la santé et les performances globales des joueurs.
Détection d'objets par boîtes englobantes orientées
La détection d'objets par boîtes englobantes orientées (OBB) utilise des rectangles pivotés pour identifier et localiser précisément les objets dans une image. Contrairement aux boîtes englobantes standard qui s'alignent sur les axes de l'image, les OBB pivotent pour correspondre à l'orientation de l'objet. Cela les rend particulièrement utiles pour les objets qui ne sont pas parfaitement horizontaux ou verticaux. Elles sont parfaites pour identifier et isoler avec précision les objets pivotés afin d'éviter les chevauchements dans les environnements encombrés.
Fig. 6. Exemple de détection de boîtes englobantes orientées sur une image aérienne de bateaux à l'aide de YOLOV8.
Dans la surveillance maritime, l'identification et le suivi des navires sont essentiels pour la sécurité et la gestion des ressources. La détection OBB peut être utilisée pour la localisation précise des navires, même lorsqu'ils sont densément regroupés ou orientés sous différents angles. Elle aide à surveiller les voies maritimes, à gérer le trafic maritime et à optimiser les opérations portuaires. Elle peut également aider à la réponse aux catastrophes en identifiant et en évaluant rapidement les dommages causés aux navires et aux infrastructures après des événements tels que les ouragans ou les marées noires.
Suivi d'objets
Jusqu'à présent, nous avons abordé les tâches de vision par ordinateur qui traitent des images. Le suivi d'objets est une tâche de vision par ordinateur qui permet de suivre un objet à travers les images d'une vidéo. Il commence par identifier l'objet dans la première image à l'aide d'algorithmes de détection, puis suit en permanence sa position lorsqu'il se déplace dans la vidéo. Le suivi d'objets implique des techniques telles que la détection d'objets, l'extraction de caractéristiques et la prédiction de mouvement pour maintenir la précision du suivi.
Fig. 7. Utilisation de YOLOv8 pour suivre les poissons.
Les modèles de vision comme YOLOv8 peuvent être utilisés pour suivre les poissons en biologie marine. À l'aide de caméras sous-marines, les chercheurs peuvent surveiller les mouvements et les comportements des poissons dans leur habitat naturel. Le processus commence par la détection des poissons individuels dans les premières images, puis suit leurs positions tout au long de la vidéo. Le suivi des poissons aide les scientifiques à comprendre les schémas de migration, les comportements sociaux et les interactions avec l'environnement. Il soutient également les pratiques de pêche durables en fournissant des informations sur la distribution et l'abondance des poissons.
Un dernier regard sur la vision par ordinateur
La vision par ordinateur est en train de modifier activement la façon dont nous utilisons la technologie et dont nous interagissons avec le monde. En utilisant des modèles d'apprentissage profond et des algorithmes complexes pour comprendre les images et les vidéos, la vision par ordinateur aide les industries à rationaliser de nombreux processus. Les tâches de vision par ordinateur telles que la détection d'objets et le suivi d'objets permettent de créer des solutions qui n'avaient jamais été imaginées auparavant. À mesure que la technologie de vision par ordinateur continue de s'améliorer, l'avenir réserve de nombreuses autres applications innovantes !
Apprenons et grandissons ensemble ! Explorez notre dépôt GitHub pour découvrir nos contributions à l'IA. Découvrez comment nous redéfinissons des secteurs tels que les voitures autonomes et l'agriculture grâce à l'IA. 🚀