Applications de la vision par ordinateur expliquées

Lorsque nous avons exploré l'histoire des modèles de vision par ordinateur, nous avons vu comment la vision par ordinateur a évolué et le chemin qui a conduit aux modèles de vision avancés dont nous disposons aujourd'hui. Des modèles modernes comme Ultralytics YOLOv8 prennent en charge de multiples tâches de vision par ordinateur et sont utilisés dans diverses applications passionnantes.

Dans cet article, nous examinerons les bases de la vision par ordinateur et des modèles de vision. Nous aborderons leur fonctionnement et leurs diverses applications dans différents secteurs. Les innovations en matière de vision par ordinateur sont partout, façonnant silencieusement notre monde. Découvrons-les une par une !

Qu'est-ce que la vision par ordinateur ?

L'intelligence artificielle (IA) est un terme générique qui englobe de nombreuses technologies visant à reproduire une partie de l'intelligence humaine. Un tel sous-domaine de l'IA est la vision par ordinateur. La vision par ordinateur se concentre sur le fait de donner aux machines des yeux qui peuvent voir, observer et comprendre leur environnement.

Tout comme la vision humaine, les solutions de vision par ordinateur visent à distinguer les objets, à calculer les distances et à detect mouvements. Toutefois, contrairement à l'homme, qui dispose de toute une vie d'expériences pour l'aider à voir et à comprendre, l'ordinateur s'appuie sur de grandes quantités de données, des caméras haute définition et des algorithmes complexes.

Fig 1. Comparaison entre la vision humaine et la vision par ordinateur.

‍

Les systèmes de vision artificielle peuvent traiter et analyser des données visuelles telles que des images et des vidéos à des vitesses et avec une précision incroyables. La capacité d'analyser rapidement et avec précision de grandes quantités d'informations visuelles fait de la vision artificielle un outil puissant dans divers secteurs, allant de la fabrication aux soins de santé.

Les modèles de vision prennent en charge diverses tâches de vision par ordinateur

Les modèles de vision par ordinateur sont au cœur de toute application de vision par ordinateur. Il s'agit essentiellement d'algorithmes de calcul alimentés par des techniques d'apprentissage profond conçus pour donner aux machines la capacité d'interpréter et de comprendre les informations visuelles. Les modèles de vision permettent d'effectuer des tâches essentielles de vision par ordinateur, allant de la classification d'images à la détection d'objets. Examinons de plus près certaines de ces tâches et leurs cas d'utilisation plus en détail.

Classification d'images

La classification des images consiste à classer et à étiqueter les images dans des classes ou des catégories prédéfinies. Un modèle de vision comme YOLOv8 peut être entraîné sur de vastes ensembles de données d' images étiquetées. Au cours de l'entraînement, le modèle apprend à reconnaître les modèles et les caractéristiques associés à chaque classe. Une fois entraîné, il peut prédire la catégorie de nouvelles images inédites en analysant leurs caractéristiques et en les comparant aux modèles appris.

‍

Il existe différents types de classification d'images. Par exemple, lorsqu'il s'agit d'images médicales, vous pouvez utiliser la classification binaire pour diviser les images en deux groupes, comme les images saines ou les images malades. La classification multiclasse est un autre type de classification. Elle permet de classer classify images en plusieurs groupes, par exemple en classant les différents animaux d'une ferme comme les cochons, les chèvres et les vaches. Si vous souhaitez classer classify animaux en groupes et sous-groupes, par exemple en mammifères et en oiseaux, puis en espèces telles que les lions, les tigres, les aigles et les moineaux, la classification hiérarchique est la meilleure option.

Détection d'objets

La détection d'objets est le processus d'identification et de localisation d'objets dans des images et des trames vidéo à l'aide de la vision par ordinateur. Elle comprend deux tâches : la localisation d'objets, qui consiste à dessiner des boîtes englobantes autour des objets, et la classification d'objets, qui identifie la catégorie de chaque objet. Sur la base des annotations de boîtes englobantes, un modèle de vision peut apprendre à reconnaître les motifs et les caractéristiques spécifiques à chaque catégorie d'objets et à prédire la présence et l'emplacement de ces objets dans de nouvelles images non vues.

‍

La détection d'objets a de nombreux cas d'utilisation dans différents secteurs, allant du sport à la biologie marine. Par exemple, dans le commerce de détail, la technologie Just Walk Out d'Amazon utilise la détection d'objets pour automatiser le passage en caisse en identifiant les articles que les clients prennent. Une combinaison de vision par ordinateur et de données de capteurs permet aux clients de prendre leurs articles et de partir sans faire la queue.

Voici un aperçu plus détaillé de son fonctionnement :

Des caméras montées au plafond capturent les mouvements des clients dans le magasin, et ces séquences vidéo sont traitées en temps réel par des modèles de vision.
‍
La détection d'objets est utilisée pour detect produit exact qu'un client prend et place dans son panier afin de mettre à jour son panier virtuel en conséquence.
‍
Les capteurs de poids sur les étagères améliorent la précision en détectant le retrait ou le remplacement d'articles.
‍
Lorsque le client quitte le magasin, la détection d'objets et la technologie de reconnaissance faciale peuvent être utilisées pour confirmer que le client est parti, et ses informations de paiement, comme une carte de crédit, peuvent être utilisées pour le facturer automatiquement.

Segmentation sémantique et d'instance

La segmentation sémantique et la segmentation d'instance sont des tâches de vision par ordinateur qui aident à partitionner les images en segments significatifs. La segmentation sémantique classe les pixels en fonction de leur signification sémantique et traite tous les objets d'une catégorie comme une seule entité avec le même label. Elle est adaptée à l'étiquetage d'objets innombrables comme "le ciel" ou "l'océan" ou de groupes comme "les feuilles" ou "l'herbe".

La segmentation par instance, quant à elle, permet de distinguer les différentes instances d'une même classe en attribuant une étiquette unique à chaque objet détecté. Vous pouvez utiliser la segmentation par instance pour segment objets dénombrables lorsque le nombre et l'indépendance des objets sont importants. Elle permet une identification et une différenciation plus précises.

Fig 4. Un exemple de segmentation sémantique et d'instance.

‍

Nous pouvons comprendre plus clairement le contraste entre la segmentation sémantique et la segmentation par instance à l'aide d'un exemple lié aux voitures autonomes. La segmentation sémantique est idéale pour les tâches qui nécessitent de comprendre le contenu d'une scène et peut être utilisée dans les véhicules autonomes pour classify caractéristiques de la route, comme les passages piétons et les panneaux de signalisation. Par ailleurs, la segmentation par instance peut être utilisée dans les véhicules autonomes pour identifier les piétons, les véhicules et les obstacles.

Estimation de pose

L'estimation de pose est une tâche de vision par ordinateur axée sur la détection et le suivi des points clés des poses d'un objet dans des images ou des vidéos. Elle est le plus souvent utilisée pour l'estimation de la pose humaine, avec des points clés comprenant des zones comme les épaules et les genoux. L'estimation de la pose d'un humain nous aide à comprendre et à reconnaître les actions et les mouvements qui sont essentiels pour diverses applications.

Fig. 5. Exemple d'estimation de la pose à l'aide de YOLOv8.

‍

L'estimation de la pose peut être utilisée dans le sport pour analyser la façon dont les athlètes bougent. La NBA utilise l'estimation de la pose pour étudier les mouvements et les positions des joueurs pendant le match. En suivant les points clés comme les épaules, les coudes, les genoux et les chevilles, l'estimation de la pose fournit des informations détaillées sur les mouvements des joueurs. Ces informations aident les entraîneurs à développer de meilleures stratégies, à optimiser les programmes d'entraînement et à effectuer des ajustements en temps réel pendant les matchs. De plus, les données peuvent aider à surveiller la fatigue des joueurs et le risque de blessure afin d'améliorer la santé et les performances globales des joueurs.

Détection d'objets par boîtes englobantes orientées

La détection d'objets par boîtes englobantes orientées (OBB) utilise des rectangles pivotés pour identifier et localiser précisément les objets dans une image. Contrairement aux boîtes englobantes standard qui s'alignent sur les axes de l'image, les OBB pivotent pour correspondre à l'orientation de l'objet. Cela les rend particulièrement utiles pour les objets qui ne sont pas parfaitement horizontaux ou verticaux. Elles sont parfaites pour identifier et isoler avec précision les objets pivotés afin d'éviter les chevauchements dans les environnements encombrés.

Fig. 6. Exemple de détection d'une boîte de délimitation orientée sur une image aérienne de bateaux à l'aide de YOLOV8.

‍

Dans la surveillance maritime, l'identification et le suivi des navires sont essentiels pour la sécurité et la gestion des ressources. La détection OBB peut être utilisée pour la localisation précise des navires, même lorsqu'ils sont densément regroupés ou orientés sous différents angles. Elle aide à surveiller les voies maritimes, à gérer le trafic maritime et à optimiser les opérations portuaires. Elle peut également aider à la réponse aux catastrophes en identifiant et en évaluant rapidement les dommages causés aux navires et aux infrastructures après des événements tels que les ouragans ou les marées noires.

Suivi d'objets

Jusqu'à présent, nous avons abordé les tâches de vision par ordinateur qui traitent des images. Le suivi d'objets est une tâche de vision par ordinateur qui permet de track un objet tout au long des images d'une vidéo. Il commence par identifier l'objet dans la première image à l'aide d'algorithmes de détection, puis suit en continu sa position au fur et à mesure qu'il se déplace dans la vidéo. Le suivi d'objets fait appel à des techniques telles que la détection d'objets, l'extraction de caractéristiques et la prédiction de mouvements afin de garantir la précision du suivi.

Fig. 7. Utilisation de YOLOv8 pour track poissons.

‍

Les modèles de vision tels que YOLOv8 peuvent être utilisés pour track poissons en biologie marine. À l'aide de caméras sous-marines, les chercheurs peuvent suivre les mouvements et les comportements des poissons dans leur habitat naturel. Le processus commence par la détection des poissons individuels dans les premières images, puis suit leur position tout au long de la vidéo. Le suivi des poissons aide les scientifiques à comprendre les schémas de migration, les comportements sociaux et les interactions avec l'environnement. Il soutient également les pratiques de pêche durable en fournissant des informations sur la répartition et l'abondance des poissons.

Un dernier regard sur la vision par ordinateur

La vision par ordinateur est en train de modifier activement la façon dont nous utilisons la technologie et dont nous interagissons avec le monde. En utilisant des modèles d'apprentissage profond et des algorithmes complexes pour comprendre les images et les vidéos, la vision par ordinateur aide les industries à rationaliser de nombreux processus. Les tâches de vision par ordinateur telles que la détection d'objets et le suivi d'objets permettent de créer des solutions qui n'avaient jamais été imaginées auparavant. À mesure que la technologie de vision par ordinateur continue de s'améliorer, l'avenir réserve de nombreuses autres applications innovantes !

Apprenons et grandissons ensemble ! Explorez notre dépôt GitHub pour découvrir nos contributions à l'IA. Découvrez comment nous redéfinissons des secteurs tels que les voitures autonomes et l'agriculture grâce à l'IA. 🚀

Explorer le fonctionnement des applications de vision par ordinateur

Qu'est-ce que la vision par ordinateur ?

Les modèles de vision prennent en charge diverses tâches de vision par ordinateur

Classification d'images

Détection d'objets

Segmentation sémantique et d'instance

Estimation de pose

Détection d'objets par boîtes englobantes orientées

Suivi d'objets

Un dernier regard sur la vision par ordinateur

En savoir plus dans cette catégorie

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Automatisation de la gestion des incidents routiers avec Ultralytics

Découvrez pourquoi Ultralytics est plus facile à mettre en production !

Construisons ensemble l'avenir
de l'IA !

Explorer le fonctionnement des applications de vision par ordinateur

Qu'est-ce que la vision par ordinateur ?

Les modèles de vision prennent en charge diverses tâches de vision par ordinateur

Classification d'images

Détection d'objets

Segmentation sémantique et d'instance

Estimation de pose

Détection d'objets par boîtes englobantes orientées

Suivi d'objets

Un dernier regard sur la vision par ordinateur

En savoir plus dans cette catégorie

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Automatisation de la gestion des incidents routiers avec Ultralytics

Découvrez pourquoi Ultralytics est plus facile à mettre en production !

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !