Découvrez les modèles de vision à grande échelle (LVM) et leur impact sur l'IA. Découvrez comment Ultralytics et la Ultralytics permettent une détection et une analyse avancées des objets.
Les modèles de vision à grande échelle (LVM) constituent une avancée majeure dans le domaine de l'intelligence artificielle, puisqu'ils se concentrent exclusivement sur la compréhension, la génération et le traitement de données visuelles à très grande échelle. Contrairement aux systèmes de vision par ordinateur traditionnels, qui sont entraînés sur des ensembles de données restreints pour des tâches spécifiques et prédéfinies, les LVM agissent comme des modèles de base généralisés, entraînés sur de vastes collections d’images et de vidéos. Cet entraînement préalable approfondi leur permet de développer une compréhension approfondie et globale de la géométrie visuelle, des textures et des relations spatiales complexes sans s’appuyer sur des étiquettes annotées par l’homme.
Les grands modèles de vision modernes s'appuient généralement sur des Vision Transformers (ViT) ou des architectures convolutives à grande échelle pour traiter les données visuelles. En recourant à des techniques d'apprentissage auto-supervisé, telles que la modélisation d'images masquées, ils apprennent en prédisant les parties manquantes d'une image ou d'une image. Des organismes universitaires tels que le Stanford Center for Research on Foundation Models ont démontré que l'augmentation rapide du nombre de paramètres de ces modèles conduit à l'émergence de capacités prêtes à l'emploi. Cela leur permet de s'adapter à des tâches en aval telles que la détection d'objets à grande vitesse et la segmentation détaillée d'images avec un minimum de réglages.
Les réseaux d'agents virtuels (LVM) révolutionnent les secteurs d'activité en prenant en charge des analyses visuelles complexes qui nécessitaient auparavant des algorithmes hautement spécialisés et spécialement formés.
Pour bien comprendre le paysage de l'IA, il est utile de distinguer les LVM des autres modèles de base courants :
Alors que les LVM de grande envergure nécessitent souvent des clusters de serveurs exécutant PyTorch ou TensorFlow, des modèles de vision de base hautement optimisés tels Ultralytics apportent une intelligence visuelle puissante et de pointe directement aux environnements périphériques locaux. L’exemple suivant montre comment effectuer une inférence visuelle robuste à l’aide d’un modèle pré-entraîné :
from ultralytics import YOLO
# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")
# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the predicted visual relationships
results[0].show()
La transition entre la recherche universitaire publiée sur arXiv et la bibliothèque numérique IEEE Xplore et son application concrète en entreprise s' accélère rapidement. Les innovations issues de groupes de recherche tels que Google étendent activement les modèles de mémoire de langage (LVM) au domaine temporel, permettant ainsi aux modèles de comprendre des séquences vidéo complexes, à l'instar des générations observées dans Sora d'OpenAI.
Pour les développeurs et les entreprises qui souhaitent créer des solutions d’IA visuelle sur mesure, la Ultralytics propose des outils intuitifs pour l’annotation collaborative des ensembles de données, l’entraînement dans le cloud et le déploiement simplifié des modèles, rendant ainsi les capacités avancées de vision artificielle accessibles à tous. De plus, des outils de segmentation « zero-shot » tels que Segment Anything 2 (SAM )de Meta montrent comment les approches fondamentales de la vision à grande échelle — souvent détaillées dans l’ ACM Digital Library— standardisent la compréhension complexe au niveau du pixel dans l’ ensemble du secteur de l’IA.
Commencez votre parcours avec l'avenir de l'apprentissage automatique