Computer Vision (CV)
Explore les fondamentaux de la vision par ordinateur (CV). Apprends comment Ultralytics YOLO26 et la plateforme Ultralytics permettent la détection d'objets, la segmentation, et plus encore.
La vision par ordinateur (CV) est un domaine sophistiqué de l'Intelligence Artificielle (IA) qui permet aux ordinateurs et aux systèmes de tirer des informations significatives d'images numériques, de vidéos et d'autres entrées visuelles. Alors que la vision humaine a la capacité innée de percevoir et de comprendre instantanément l'environnement, les ordinateurs doivent être entraînés à reconnaître des modèles et à interpréter des pixels. En exploitant des algorithmes d'Apprentissage Automatique (ML) et plus spécifiquement d'Apprentissage Profond (DL), les systèmes de CV peuvent traiter des données visuelles pour faire des recommandations ou entreprendre des actions basées sur ces informations.
Link to this sectionComment fonctionne la vision par ordinateur#
Fondamentalement, un ordinateur perçoit une image comme une matrice de valeurs numériques représentant des pixels. La CV moderne s'appuie largement sur les Réseaux de Neurones Convolutifs (CNN), conçus pour imiter le modèle de connectivité des neurones dans le cerveau humain. Ces réseaux apprennent à identifier une hiérarchie de caractéristiques — des bords et textures simples aux formes et objets complexes — via un processus appelé extraction de caractéristiques.
Pour fonctionner efficacement, ces modèles nécessitent de grandes quantités de données d'entraînement. Par exemple, pour reconnaître une voiture, un modèle doit traiter des milliers d'images étiquetées de voitures dans diverses conditions. Des outils comme la Plateforme Ultralytics simplifient ce flux de travail, permettant aux utilisateurs d'annoter des jeux de données, d'entraîner des modèles dans le cloud et de les déployer efficacement.
Link to this sectionTâches fondamentales en vision par ordinateur#
La vision par ordinateur n'est pas une fonction unique mais une collection de tâches distinctes, chacune résolvant un problème spécifique :
- Classification d'images: Cette tâche attribue une étiquette de classe à une image entière, répondant à la question : « Qu'y a-t-il sur cette photo ? » (par exemple, distinguer un chat d'un chien).
- Détection d'objets: En allant plus loin, la détection identifie des objets distincts au sein d'une image et dessine une boîte englobante autour d'eux. C'est crucial pour compter des éléments ou localiser des caractéristiques spécifiques.
- Segmentation d'instance: Cela fournit un masque précis au niveau du pixel pour chaque objet détecté, séparant les instances individuelles d'une même classe. C'est vital pour les applications nécessitant une grande précision, comme l'analyse d'images médicales.
- Estimation de pose: Cela implique la détection de points clés spécifiques sur un objet, tels que les articulations d'un corps humain, pour suivre le mouvement et la posture.
Link to this sectionApplications concrètes#
L'utilité de la vision par ordinateur s'étend à pratiquement tous les secteurs, automatisant des tâches qui nécessitaient auparavant l'œil humain.
- Fabrication et contrôle qualité : Dans les contextes industriels, la CV est souvent appelée Vision Industrielle. Elle est utilisée pour automatiser l'inspection qualité, détectant des défauts infimes sur les produits d'une chaîne de montage plus rapidement et plus précisément que les inspecteurs humains. Par exemple, l'IA dans la fabrication permet une surveillance en temps réel de l'équipement pour prévenir les pannes.
- Transport autonome : Les voitures autonomes dépendent entièrement de la CV pour naviguer en toute sécurité. En traitant les données des caméras et des capteurs LiDAR, ces véhicules effectuent une Détection d'objets 3D pour identifier les piétons, les autres véhicules et les panneaux de signalisation en temps réel. C'est un composant critique pour atteindre des niveaux élevés d'automatisation des véhicules.
- Santé et diagnostics : Les radiologues utilisent la CV pour aider à identifier des anomalies dans les radiographies, IRM et scanners CT. L'IA dans la santé aide au dépistage précoce des maladies, comme l'identification de tumeurs, en mettant en évidence des zones d'intérêt qui pourraient échapper à l'œil nu.
Link to this sectionVision par ordinateur vs Traitement d'image#
Il est important de distinguer la CV du Traitement d'image, bien qu'ils fonctionnent souvent ensemble.
- Le Traitement d'image implique la manipulation d'une image pour l'améliorer ou en extraire des informations (par exemple, ajuster la luminosité, le contraste ou appliquer des filtres comme ceux d'Adobe Photoshop). Le résultat est généralement une autre image.
- La Vision par ordinateur prend une image en entrée et fournit des informations ou une interprétation (par exemple, « Il y a trois personnes dans cette pièce »). La CV utilise des techniques de traitement d'image pour préparer les images en vue de leur analyse par des Réseaux de Neurones.
Link to this sectionImplémenter la vision par ordinateur avec Python#
Des bibliothèques modernes ont rendu l'implémentation de modèles de CV puissants accessible. L'exemple ci-dessous démontre comment charger le modèle de pointe YOLO26 pour détecter des objets dans une image en utilisant le package ultralytics.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()Ce script simple utilise un modèle pré-entraîné pour effectuer des tâches d'inférence complexes, démontrant l'accessibilité des outils d'IA modernes. Pour les développeurs souhaitant aller au-delà des images statiques, la CV alimente également la Compréhension vidéo et les systèmes de suivi en temps réel utilisés dans la sécurité et l'analyse sportive. En s'intégrant à des bibliothèques comme OpenCV, tu peux concevoir des applications complètes capables de capturer, traiter et analyser le monde visuel.






