Libérez le potentiel de l'IA avec la vision par ordinateur ! Découvrez son rôle dans la détection d'objets, la santé, les voitures autonomes, et bien plus encore. Apprenez-en davantage dès maintenant !
La vision par ordinateur (CV) est un domaine sophistiqué de l' intelligence artificielle (IA) qui permet aux ordinateurs et aux systèmes de tirer des informations significatives à partir d'images numériques, de vidéos et d'autres entrées visuelles. Alors que la vision humaine a la capacité innée de percevoir et de comprendre instantanément l'environnement, les ordinateurs doivent être entraînés à reconnaître des modèles et à interpréter des pixels. En exploitant l'apprentissage automatique (ML) et plus particulièrement les algorithmes d'apprentissage profond (DL), les systèmes de CV peuvent prendre des données visuelles, les traiter et faire des recommandations ou prendre des mesures basées sur ces informations.
À la base, un ordinateur perçoit une image comme un ensemble de valeurs numériques représentant des pixels. La vision par ordinateur moderne s'appuie fortement sur les réseaux neuronaux convolutifs (CNN), qui sont conçus pour imiter le modèle de connectivité des neurones dans le cerveau humain. Ces réseaux apprennent à identifier une hiérarchie de caractéristiques, des simples contours et textures aux formes et objets complexes, grâce à un processus appelé extraction de caractéristiques.
Pour fonctionner efficacement, ces modèles nécessitent de grandes quantités de données d'entraînement. Par exemple, pour reconnaître une voiture, un modèle doit traiter des milliers d'images étiquetées de voitures dans diverses conditions. Des outils tels que Ultralytics rationalisent ce flux de travail, permettant aux utilisateurs d' annoter des ensembles de données, d'entraîner des modèles dans le cloud et de les déployer efficacement.
La vision par ordinateur n'est pas une fonction unique, mais un ensemble de tâches distinctes, chacune résolvant un problème spécifique :
L'utilité de la vision par ordinateur s'étend à pratiquement tous les secteurs d'activité, automatisant des tâches qui nécessitaient auparavant l'intervention humaine .
Il est important de distinguer le CV du traitement d'images, bien qu'ils fonctionnent souvent ensemble.
Les bibliothèques modernes ont rendu accessible la mise en œuvre de modèles CV puissants. L'exemple ci-dessous montre comment charger le
dernier cri YOLO26 modèle permettant de detect dans une image
à l'aide du ultralytics l'emballage.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Ce script simple utilise un modèle pré-entraîné pour effectuer des tâches d'inférence complexes , démontrant ainsi l'accessibilité des outils d'IA modernes. Pour les développeurs qui souhaitent aller au-delà des images statiques, le CV alimente également les systèmes de compréhension vidéo et de suivi en temps réel utilisés dans les domaines de la sécurité et de l'analyse sportive. En s'intégrant à des bibliothèques telles que OpenCV, les développeurs peuvent créer des applications complètes qui capturent, traitent et analysent le monde visuel.