Glossaire

Vision par ordinateur (CV)

Libérez le potentiel de l'IA grâce à la vision par ordinateur ! Explorez son rôle dans la détection d'objets, les soins de santé, les voitures autonomes et bien plus encore. En savoir plus !

La vision par ordinateur est un domaine de l'intelligence artificielle (IA) qui apprend aux ordinateurs à interpréter et à comprendre le monde visuel. À l'aide d'images numériques provenant de caméras, de vidéos et de modèles d'apprentissage profond, les machines peuvent identifier et classer des objets avec précision, puis réagir à ce qu'elles "voient". L'objectif est de permettre aux ordinateurs de reproduire la vision humaine, une tâche qui implique le traitement et l'analyse de vastes quantités de données visuelles afin de leur donner un sens. Ce domaine a connu une croissance rapide grâce aux progrès de l'apprentissage profond et à la disponibilité de vastes ensembles de données.

Comment fonctionne la vision par ordinateur

La vision par ordinateur consiste à appliquer des algorithmes d'apprentissage automatique aux données visuelles. Au lieu d'être explicitement programmé pour reconnaître un objet, un modèle de CV apprend à identifier des modèles à partir de milliers ou de millions d'images étiquetées. Par exemple, pour entraîner un modèle à reconnaître des chats, on lui donne d'innombrables images de chats jusqu'à ce qu'il puisse apprendre à distinguer les caractéristiques d'un chat par lui-même.

Les CV modernes s'appuient fortement sur des modèles d'apprentissage profond, en particulier les réseaux neuronaux convolutifs (CNN). Un CNN est un type de réseau neuronal très efficace pour le traitement des données d'image. Il applique des filtres (ou noyaux) à une image pour créer des cartes de caractéristiques qui mettent en évidence des caractéristiques importantes telles que les bords, les textures et les formes. Ces réseaux permettent d'effectuer de nombreuses tâches courantes de vision par ordinateur, permettant aux machines d'analyser les informations visuelles avec une précision croissante.

Vision par ordinateur et traitement de l'image

Bien qu'elles soient étroitement liées, la vision par ordinateur et le traitement d'images ne sont pas identiques. Le traitement d'images est un sous-ensemble de la CV qui se concentre sur la manipulation d'images numériques afin de les améliorer ou d'en extraire des informations utiles. Il implique des opérations telles que l'accentuation, le flou ou le filtrage d'une image. En revanche, la vision par ordinateur va plus loin en visant à interpréter et à comprendre le contenu de l'image. Par exemple, le traitement d'image peut être utilisé pour améliorer la qualité d'une photo, tandis que la vision par ordinateur sera utilisée pour identifier les personnes, les objets et la scène dans cette photo. Pour en savoir plus sur cette distinction, consultez cette présentation détaillée du traitement numérique de l'image.

Tâches clés dans le domaine de la vision par ordinateur

La vision par ordinateur englobe plusieurs tâches essentielles qui permettent aux machines d'analyser et d'interpréter des données visuelles :

  • Détection d'objets: Il s'agit d'identifier et de localiser des objets dans une image ou une vidéo. Un modèle comme Ultralytics YOLO dessine un cadre autour de chaque objet détecté et lui attribue une étiquette de classe.
  • Classification d'images: Cette tâche consiste à attribuer une étiquette unique à une image entière à partir d'un ensemble prédéfini de catégories. Par exemple, classer une image comme contenant un "chat" ou un "chien".
  • Segmentation d'images: Contrairement à la détection d'objets, la segmentation classe chaque pixel d'une image. Elle permet une compréhension beaucoup plus détaillée du contenu de l'image. Les sous-tâches comprennent la segmentation des instances et la segmentation sémantique.
  • Estimation de la pose: Elle permet de déterminer la position et l'orientation d'une personne ou d'un objet dans l'espace. Elle est largement utilisée dans les domaines de la robotique, de la réalité augmentée et de l'analyse de l'activité humaine.
  • Suivi d'objets: Cette tâche consiste à suivre un ou plusieurs objets au fil du temps dans une séquence vidéo. Elle est essentielle pour des applications telles que la surveillance et la navigation autonome.

Applications dans le monde réel

Les applications de vision par ordinateur sont de plus en plus répandues dans divers secteurs :

Outils et cadres

Le développement et le déploiement de modèles de vision par ordinateur sont facilités par divers outils et frameworks. Des bibliothèques comme PyTorch (visitez le site officiel de PyTorch) et TensorFlow (visitez le site officiel de TensorFlow) sont fondamentales pour la construction de modèles. Les bibliothèques libres comme OpenCV fournissent une vaste collection de fonctions pour la vision par ordinateur en temps réel.

Des plateformes telles qu'Ultralytics HUB rationalisent l'ensemble du cycle de vie d'un projet de CV, depuis la gestion des ensembles de données et la formation de modèles personnalisés jusqu'au déploiement. L'utilisation de formats normalisés comme ONNX contribue également à garantir l'interopérabilité entre les différents cadres. Au fur et à mesure que ces technologies arrivent à maturité, elles continueront à stimuler l'innovation dans tous les secteurs d'activité.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers