Explorer le fonctionnement des applications de la vision par ordinateur

Abirami Vina

5 minutes de lecture

9 août 2024

Plongez avec nous dans les applications de la vision par ordinateur. Nous aborderons également diverses tâches de vision par ordinateur telles que la détection et la segmentation d'objets.

Lorsque nous avons exploré l'histoire des modèles de vision par ordinateur, nous avons vu comment la vision par ordinateur a évolué et le chemin qui a conduit aux modèles de vision avancés dont nous disposons aujourd'hui. Les modèles modernes comme Ultralytics YOLOv8 prennent en charge de multiples tâches de vision par ordinateur et sont utilisés dans diverses applications passionnantes. 

Dans cet article, nous examinerons les bases de la vision par ordinateur et des modèles de vision. Nous verrons comment ils fonctionnent et quelles sont leurs diverses applications dans différents secteurs. Les innovations en matière de vision par ordinateur sont omniprésentes et façonnent silencieusement notre monde. Découvrons-les une à une ! 

Qu'est-ce que la vision par ordinateur ?

L'intelligence artificielle (IA) est un terme générique qui englobe de nombreuses technologies visant à reproduire une partie de l'intelligence humaine. L'un de ces sous-domaines de l'IA est la vision par ordinateur. La vision par ordinateur vise à doter les machines d'yeux capables de voir, d'observer et de comprendre leur environnement. 

Tout comme la vision humaine, les solutions de vision par ordinateur visent à distinguer les objets, à calculer les distances et à détecter les mouvements. Toutefois, contrairement à l'homme, qui dispose de toute une vie d'expériences pour l'aider à voir et à comprendre, l'ordinateur s'appuie sur de grandes quantités de données, des caméras haute définition et des algorithmes complexes. 

__wf_reserved_inherit
Fig. 1. Comparaison entre la vision humaine et la vision par ordinateur.

Les systèmes de vision par ordinateur peuvent traiter et analyser des données visuelles telles que des images et des vidéos à des vitesses et avec une précision incroyables. La capacité d'analyser rapidement et avec précision de grandes quantités d'informations visuelles fait de la vision par ordinateur un outil puissant dans diverses industries, allant de la fabrication aux soins de santé.

Les modèles de vision soutiennent diverses tâches de vision par ordinateur

Les modèles de vision par ordinateur sont au cœur de toute application de vision par ordinateur. Il s'agit essentiellement d'algorithmes de calcul alimentés par des techniques d'apprentissage profond conçues pour donner aux machines la capacité d'interpréter et de comprendre les informations visuelles. Les modèles de vision permettent d'effectuer des tâches cruciales de vision par ordinateur, allant de la classification d'images à la détection d'objets. Examinons de plus près certaines de ces tâches et leurs cas d'utilisation. 

Classification des images

La classification des images consiste à classer et à étiqueter les images dans des classes ou des catégories prédéfinies. Un modèle de vision tel que YOLOv8 peut être entraîné sur de vastes ensembles de données d' images étiquetées. Au cours de l'entraînement, le modèle apprend à reconnaître les modèles et les caractéristiques associés à chaque classe. Une fois entraîné, il peut prédire la catégorie de nouvelles images inédites en analysant leurs caractéristiques et en les comparant aux modèles appris. 

__wf_reserved_inherit
Fig. 2. Un exemple de classification d'images. (source : towardsdatascience.com)

Il existe différents types de classification d'images. Par exemple, lorsqu'il s'agit d'images médicales, vous pouvez utiliser la classification binaire pour diviser les images en deux groupes, comme les images saines ou les images malades. La classification multiclasse est un autre type de classification. Elle permet de classer les images en plusieurs groupes, par exemple en classant les différents animaux d'une ferme comme les cochons, les chèvres et les vaches. Si vous souhaitez classer les animaux en groupes et sous-groupes, par exemple en mammifères et en oiseaux, puis en espèces telles que les lions, les tigres, les aigles et les moineaux, la classification hiérarchique est la meilleure option.

Détection d'objets

La détection d'objets est le processus d'identification et de localisation d'objets dans des images et des séquences vidéo à l'aide de la vision par ordinateur. Elle se compose de deux tâches : la localisation des objets, qui dessine des boîtes englobantes autour des objets, et la classification des objets, qui identifie la catégorie de chaque objet. Sur la base des annotations des boîtes englobantes, un modèle de vision peut apprendre à reconnaître des modèles et des caractéristiques propres à chaque catégorie d'objets et à prédire la présence et l'emplacement de ces objets dans de nouvelles images inédites. 

__wf_reserved_inherit
Fig. 3. La détection d'objets YOLOv8 est utilisée pour détecter des joueurs sur un terrain de football.

La détection d'objets a de nombreux cas d'utilisation dans différents secteurs, du sport à la biologie marine. Par exemple, dans le commerce de détail, la technologie Just Walk Out d'Amazon utilise la détection d'objets pour automatiser le passage en caisse en identifiant les articles que les clients prennent. La combinaison de la vision par ordinateur et des données des capteurs permet aux clients de prendre leurs articles et de partir sans faire la queue. 

Voici un aperçu de son fonctionnement :

  • Des caméras montées au plafond enregistrent les mouvements des clients dans le magasin, et ces séquences vidéo sont traitées en temps réel par des modèles de vision.
  • La détection d'objets est utilisée pour détecter le produit exact qu'un client prend et place dans son panier afin de mettre à jour son panier virtuel en conséquence.
  • Les capteurs de poids placés sur les étagères améliorent la précision en détectant le retrait ou le remplacement d'un article.
  • Lorsque le client sort du magasin, la technologie de détection des objets et de reconnaissance faciale peut être utilisée pour confirmer qu'il est parti, et ses données de paiement, comme une carte de crédit, peuvent être utilisées pour le débiter automatiquement.

Segmentation sémantique et par instance

La segmentation sémantique et la segmentation d'instance sont des tâches de vision par ordinateur qui aident à diviser les images en segments significatifs. La segmentation sémantique classe les pixels en fonction de leur signification sémantique et traite tous les objets d'une catégorie comme une seule entité avec la même étiquette. Elle convient à l'étiquetage d'objets non dénombrables tels que "le ciel" ou "l'océan" ou de groupes tels que "les feuilles" ou "l'herbe".

La segmentation par instance, quant à elle, permet de distinguer les différentes instances d'une même classe en attribuant une étiquette unique à chaque objet détecté. Vous pouvez utiliser la segmentation par instance pour segmenter des objets dénombrables lorsque le nombre et l'indépendance des objets sont importants. Elle permet une identification et une différenciation plus précises.

__wf_reserved_inherit
Fig. 4. Exemple de segmentation sémantique et d'instance.

Nous pouvons comprendre plus clairement le contraste entre la segmentation sémantique et la segmentation par instance à l'aide d'un exemple lié aux voitures autonomes. La segmentation sémantique est idéale pour les tâches qui nécessitent de comprendre le contenu d'une scène et peut être utilisée dans les véhicules autonomes pour classer les caractéristiques de la route, comme les passages piétons et les panneaux de signalisation. Par ailleurs, la segmentation par instance peut être utilisée dans les véhicules autonomes pour identifier les piétons, les véhicules et les obstacles. 

Estimation de la pose

L'estimation de la pose est une tâche de vision par ordinateur axée sur la détection et le suivi des points clés de la pose d'un objet dans des images ou des vidéos. Elle est le plus souvent utilisée pour l'estimation de la pose d'un être humain, les points clés étant des zones telles que les épaules et les genoux. L'estimation de la pose d'un être humain nous aide à comprendre et à reconnaître les actions et les mouvements qui sont essentiels pour diverses applications.

__wf_reserved_inherit
Fig. 5. Exemple d'estimation de la pose à l'aide de YOLOv8.

L'estimation de la pose peut être utilisée dans le domaine du sport pour analyser les mouvements des athlètes. La NBA utilise l'estimation de la pose pour étudier les mouvements et les positions des joueurs pendant le match. En suivant des points clés tels que les épaules, les coudes, les genoux et les chevilles, l'estimation de la pose fournit des informations détaillées sur les mouvements des joueurs. Ces informations aident les entraîneurs à élaborer de meilleures stratégies, à optimiser les programmes d'entraînement et à procéder à des ajustements en temps réel pendant les matchs. Les données peuvent également aider à surveiller la fatigue des joueurs et les risques de blessure afin d'améliorer la santé et les performances globales des joueurs.

Boîtes de délimitation orientées détection d'objets

La détection d'objets par boîtes de délimitation orientées (OBB) utilise des rectangles tournés pour identifier et localiser avec précision des objets dans une image. Contrairement aux boîtes de délimitation standard qui s'alignent sur les axes de l'image, les OBB pivotent pour s'adapter à l'orientation de l'objet. Ils sont donc particulièrement utiles pour les objets qui ne sont pas parfaitement horizontaux ou verticaux. Ils permettent de localiser et d'isoler avec précision les objets ayant subi une rotation afin d'éviter les chevauchements dans les environnements encombrés.

__wf_reserved_inherit
Fig. 6. Exemple de détection d'une boîte de délimitation orientée sur une image aérienne de bateaux à l'aide de YOLOV8.

Dans le domaine de la surveillance maritime, l'identification et le suivi des navires sont essentiels pour la sécurité et la gestion des ressources. La détection OBB peut être utilisée pour la localisation précise des navires, même lorsqu'ils sont très denses ou orientés sous différents angles. Elle permet de surveiller les voies de navigation, de gérer le trafic maritime et d'optimiser les opérations portuaires. Elle peut également contribuer aux interventions en cas de catastrophe en identifiant et en évaluant rapidement les dommages subis par les navires et les infrastructures après des événements tels que les ouragans ou les marées noires.

Suivi des objets

Jusqu'à présent, nous avons abordé les tâches de vision par ordinateur qui traitent des images. Le suivi d'objets est une tâche de vision par ordinateur qui permet de suivre un objet tout au long des images d'une vidéo. Il commence par identifier l'objet dans la première image à l'aide d'algorithmes de détection, puis suit en continu sa position au fur et à mesure qu'il se déplace dans la vidéo. Le suivi d'objets fait appel à des techniques telles que la détection d'objets, l'extraction de caractéristiques et la prédiction de mouvements afin de garantir la précision du suivi.

__wf_reserved_inherit
Fig. 7. Utilisation de YOLOv8 pour suivre les poissons.

Les modèles de vision tels que YOLOv8 peuvent être utilisés pour suivre les poissons en biologie marine. À l'aide de caméras sous-marines, les chercheurs peuvent suivre les mouvements et les comportements des poissons dans leur habitat naturel. Le processus commence par la détection des poissons individuels dans les premières images, puis suit leur position tout au long de la vidéo. Le suivi des poissons aide les scientifiques à comprendre les schémas de migration, les comportements sociaux et les interactions avec l'environnement. Il soutient également les pratiques de pêche durable en fournissant des informations sur la répartition et l'abondance des poissons.

Un dernier regard sur la vision par ordinateur

La vision par ordinateur modifie activement la manière dont nous utilisons la technologie et interagissons avec le monde. En utilisant des modèles d'apprentissage profond et des algorithmes complexes pour comprendre les images et les vidéos, la vision par ordinateur aide les industries à rationaliser de nombreux processus. Les tâches de vision par ordinateur telles que la détection et le suivi d'objets permettent de créer des solutions qui n'avaient jamais été imaginées auparavant. À mesure que la technologie de la vision par ordinateur s'améliore, l'avenir nous réserve de nombreuses applications innovantes ! 

Apprenons et évoluons ensemble ! Explorez notre dépôt GitHub pour découvrir nos contributions à l'IA. Découvrez comment nous redéfinissons des secteurs comme les voitures auto-conduites et l'agriculture grâce à l'IA. 🚀

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers