Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Vision par ordinateur (CV)

Libérez le potentiel de l'IA avec la vision par ordinateur ! Découvrez son rôle dans la détection d'objets, la santé, les voitures autonomes, et bien plus encore. Apprenez-en davantage dès maintenant !

La vision par ordinateur (CV) est un domaine sophistiqué de l' intelligence artificielle (IA) qui permet aux ordinateurs et aux systèmes de tirer des informations significatives à partir d'images numériques, de vidéos et d'autres entrées visuelles. Alors que la vision humaine a la capacité innée de percevoir et de comprendre instantanément l'environnement, les ordinateurs doivent être entraînés à reconnaître des modèles et à interpréter des pixels. En exploitant l'apprentissage automatique (ML) et plus particulièrement les algorithmes d'apprentissage profond (DL), les systèmes de CV peuvent prendre des données visuelles, les traiter et faire des recommandations ou prendre des mesures basées sur ces informations.

Comment fonctionne la vision par ordinateur

À la base, un ordinateur perçoit une image comme un ensemble de valeurs numériques représentant des pixels. La vision par ordinateur moderne s'appuie fortement sur les réseaux neuronaux convolutifs (CNN), qui sont conçus pour imiter le modèle de connectivité des neurones dans le cerveau humain. Ces réseaux apprennent à identifier une hiérarchie de caractéristiques, des simples contours et textures aux formes et objets complexes, grâce à un processus appelé extraction de caractéristiques.

Pour fonctionner efficacement, ces modèles nécessitent de grandes quantités de données d'entraînement. Par exemple, pour reconnaître une voiture, un modèle doit traiter des milliers d'images étiquetées de voitures dans diverses conditions. Des outils tels que Ultralytics rationalisent ce flux de travail, permettant aux utilisateurs d' annoter des ensembles de données, d'entraîner des modèles dans le cloud et de les déployer efficacement.

Tâches principales en vision par ordinateur

La vision par ordinateur n'est pas une fonction unique, mais un ensemble de tâches distinctes, chacune résolvant un problème spécifique :

  • Classification d'images: cette tâche consiste à attribuer une étiquette de classe à une image entière, en répondant à la question « Que contient cette image ? » (par exemple, distinguer un chat d'un chien).
  • Détection d'objets: allant encore plus loin, la détection identifie des objets distincts dans une image et dessine un cadre autour d'eux. Cela est crucial pour compter des éléments ou localiser des caractéristiques spécifiques.
  • Segmentation d'instance: elle fournit un masque précis au niveau du pixel pour chaque objet détecté, séparant les instances individuelles de la même classe. Elle est essentielle pour les applications nécessitant une grande précision, telles que l'analyse d' images médicales.
  • Estimation de la pose: cela implique la détection de points clés spécifiques sur un objet, tels que les articulations d'un corps humain, afin de track et la posture.

Applications concrètes

L'utilité de la vision par ordinateur s'étend à pratiquement tous les secteurs d'activité, automatisant des tâches qui nécessitaient auparavant l'intervention humaine .

  • Fabrication et contrôle qualité : dans le domaine industriel, le CV est souvent appelé vision industrielle. Il est utilisé pour automatiser le contrôle qualité, en détectant les défauts infimes des produits sur une chaîne de montage plus rapidement et plus précisément que les inspecteurs humains. Par exemple, l'IA dans le domaine de la fabrication permet de surveiller les équipements en temps réel afin de prévenir les pannes.
  • Transport autonome : les voitures autonomes dépendent entièrement de la vision par ordinateur pour circuler en toute sécurité. En traitant les données provenant des caméras et des capteurs LiDAR, ces véhicules effectuent une détection d'objets en 3D afin d'identifier les piétons, les autres véhicules et les panneaux de signalisation en temps réel. Il s'agit d'un élément essentiel pour atteindre des niveaux élevés d' automatisation des véhicules.
  • Santé et diagnostic : les radiologues utilisent l'IA pour les aider à identifier les anomalies dans les radiographies, les IRM et les scanners. L'IA dans le domaine de la santé aide à la détection précoce des maladies, par exemple en identifiant des tumeurs, en mettant en évidence des zones d'intérêt qui pourraient échapper à l'œil nu .

Vision par ordinateur vs. Traitement d'image

Il est important de distinguer le CV du traitement d'images, bien qu'ils fonctionnent souvent ensemble.

  • Le traitement d'image consiste à manipuler une image afin de l'améliorer ou d'en extraire des informations (par exemple, ajuster la luminosité, le contraste ou appliquer des filtres comme ceux disponibles dans Adobe Photoshop). Le résultat est généralement une autre image.
  • La vision par ordinateur prend une image en entrée et produit des informations ou une interprétation (par exemple, « Il y a trois personnes dans cette pièce »). La vision par ordinateur utilise des techniques de traitement d'images pour préparer les images en vue de leur analyse par des réseaux neuronaux.

Mise en œuvre de la vision par ordinateur avec Python

Les bibliothèques modernes ont rendu accessible la mise en œuvre de modèles CV puissants. L'exemple ci-dessous montre comment charger le dernier cri YOLO26 modèle permettant de detect dans une image à l'aide du ultralytics l'emballage.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
results[0].show()

Ce script simple utilise un modèle pré-entraîné pour effectuer des tâches d'inférence complexes , démontrant ainsi l'accessibilité des outils d'IA modernes. Pour les développeurs qui souhaitent aller au-delà des images statiques, le CV alimente également les systèmes de compréhension vidéo et de suivi en temps réel utilisés dans les domaines de la sécurité et de l'analyse sportive. En s'intégrant à des bibliothèques telles que OpenCV, les développeurs peuvent créer des applications complètes qui capturent, traitent et analysent le monde visuel.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant