Glossaire

Vision par ordinateur (CV)

Débloque le potentiel de l'IA avec la vision par ordinateur ! Explore son rôle dans la détection d'objets, les soins de santé, les voitures auto-conduites, et bien plus encore. Apprends-en plus maintenant !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La vision par ordinateur (VA) est un domaine spécialisé de l'intelligence artificielle (IA) qui permet aux ordinateurs et aux systèmes de dériver des informations significatives à partir d'images numériques, de vidéos et d'autres données visuelles. Essentiellement, elle vise à reproduire la compréhension visuelle humaine, en permettant aux machines de "voir", d'interpréter et de prendre des décisions basées sur des données visuelles. Cela implique de traiter les informations visuelles à l'aide d'algorithmes complexes et de modèles d'apprentissage profond (DL) pour reconnaître les objets, comprendre les scènes et extraire des informations de haut niveau. Contrairement au traitement d'image simple, qui se concentre principalement sur l'amélioration ou la manipulation des données d'image (comme l'ajustement de la luminosité ou l'application de filtres), la vision par ordinateur cherche à comprendre le contenu et le contexte au sein des visuels.

L'importance de l'IA et de l'apprentissage automatique

La vision par ordinateur est fondamentale pour de nombreux systèmes modernes d'IA et d'apprentissage machine (ML), car elle fournit les capacités nécessaires aux machines pour interagir avec le monde physique et le comprendre par le biais de la perception visuelle. L'avènement de techniques telles que les réseaux neuronaux convolutifs (CNN), inspirés du cortex visuel humain, a révolutionné la VC. Ces réseaux permettent aux modèles d'apprendre automatiquement des caractéristiques hiérarchiques à partir de grandes quantités de données visuelles, ce qui conduit à des améliorations significatives de la précision pour diverses tâches de vision par ordinateur. Ces progrès permettent des applications sophistiquées qui étaient auparavant inaccessibles, ce qui fait de la CV une pierre angulaire du développement actuel de l'IA et un moteur essentiel pour les cas d'utilisation de l'IA qui transforment notre avenir.

Concepts et tâches clés

La vision par ordinateur englobe un large éventail de tâches visant à extraire différents types d'informations des données visuelles. Parmi les tâches essentielles, on peut citer :

Vision par ordinateur et domaines connexes

Il est utile de distinguer la vision par ordinateur des disciplines connexes :

  • Traitement de l'image : Se concentre sur la manipulation des images à un niveau inférieur, souvent en tant qu'étape de prétraitement pour CV. Les tâches comprennent la réduction du bruit, l'amélioration du contraste et le filtrage à l'aide de bibliothèques comme OpenCV. Le traitement d'image modifie les pixels mais n'interprète pas nécessairement le contenu de l'image. En savoir plus sur les principales différences entre la vision par ordinateur et le traitement d'image.
  • Vision industrielle (MV) : Bien qu'il y ait un chevauchement avec le CV, le MV fait généralement référence à l'application de la technologie de la vision dans les environnements industriels pour l'inspection automatisée, le contrôle des processus et le guidage des robots. Les systèmes de vision industrielle fonctionnent souvent dans des environnements contrôlés, avec des éclairages et des caméras spécifiques, en se concentrant sur la fiabilité et la rapidité pour des tâches spécifiques telles que l'inspection de la qualité dans la fabrication. En savoir plus sur la vision industrielle.

Technologies et cadres de travail

Le développement d'applications de vision par ordinateur repose sur divers outils, bibliothèques et cadres :

  • Bibliothèques : OpenCV (Open Source Computer Vision Library) est une bibliothèque fondamentale qui offre une vaste collection d'algorithmes pour le traitement d'images et les tâches classiques de CV. Parmi les autres bibliothèques, on peut citer Pillow pour la manipulation d'images en Python et Scikit-image pour les algorithmes de traitement d'images.
  • Cadres d'apprentissage profond: PyTorch et TensorFlow sont les principaux frameworks pour la construction et l'entraînement de modèles d'apprentissage profond, y compris ceux utilisés dans CV.
  • Modèles : Les modèles de pointe comme YOLO (You Only Look Once) permettent une détection efficace des objets en temps réel. Des architectures telles que ResNet sont couramment utilisées, et les transformateurs de vision (ViT) représentent une classe plus récente de modèles qui gagnent en importance. Compare les performances de différents modèlesYOLO .
  • Plateformes : Des outils comme Ultralytics HUB rationalisent le processus de formation, de déploiement et de gestion des modèles de CV, en offrant des fonctionnalités telles que la formation dans le nuage et la gestion des ensembles de données. D'autres plateformes comme Roboflow et Weights & Biases offrent des outils complémentaires pour l'annotation des données et le suivi des expériences.

Applications dans le monde réel

Les applications de vision par ordinateur sont de plus en plus répandues dans divers secteurs :

Tout lire