Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles de vision à grande échelle (LVM)

Découvrez les modèles de vision à grande échelle (LVM) et leur impact sur l'IA. Découvrez comment Ultralytics et la Ultralytics permettent une détection et une analyse avancées des objets.

Les modèles de vision à grande échelle (LVM) constituent une avancée majeure dans le domaine de l'intelligence artificielle, puisqu'ils se concentrent exclusivement sur la compréhension, la génération et le traitement de données visuelles à très grande échelle. Contrairement aux systèmes de vision par ordinateur traditionnels, qui sont entraînés sur des ensembles de données restreints pour des tâches spécifiques et prédéfinies, les LVM agissent comme des modèles de base généralisés, entraînés sur de vastes collections d’images et de vidéos. Cet entraînement préalable approfondi leur permet de développer une compréhension approfondie et globale de la géométrie visuelle, des textures et des relations spatiales complexes sans s’appuyer sur des étiquettes annotées par l’homme.

Comment fonctionnent les grands modèles de vision

Les grands modèles de vision modernes s'appuient généralement sur des Vision Transformers (ViT) ou des architectures convolutives à grande échelle pour traiter les données visuelles. En recourant à des techniques d'apprentissage auto-supervisé, telles que la modélisation d'images masquées, ils apprennent en prédisant les parties manquantes d'une image ou d'une image. Des organismes universitaires tels que le Stanford Center for Research on Foundation Models ont démontré que l'augmentation rapide du nombre de paramètres de ces modèles conduit à l'émergence de capacités prêtes à l'emploi. Cela leur permet de s'adapter à des tâches en aval telles que la détection d'objets à grande vitesse et la segmentation détaillée d'images avec un minimum de réglages.

Applications concrètes

Les réseaux d'agents virtuels (LVM) révolutionnent les secteurs d'activité en prenant en charge des analyses visuelles complexes qui nécessitaient auparavant des algorithmes hautement spécialisés et spécialement formés.

  • Analyse automatisée d'images médicales: Dans les environnements cliniques, de vastes architectures de vision traitent des radiographies, des IRM et des tomodensitométries en haute résolution afin d'identifier des anomalies subtiles, aidant ainsi les radiologues à détecter précocement les maladies et réduisant considérablement les erreurs de diagnostic.
  • Détection des défauts dans le secteur manufacturier: Les chaînes de production industrielles utilisent des modèles de vision généralisée pour inspecter les produits en temps réel, ce qui permet d'identifier facilement des défauts complexes et inédits sur les chaînes de montage et d'améliorer le contrôle qualité sans avoir besoin de milliers d' exemples pour chaque type de défaut spécifique.

Distinguer les concepts apparentés

Pour bien comprendre le paysage de l'IA, il est utile de distinguer les LVM des autres modèles de base courants :

  • LVM vs. Vision Language Model (VLM): Alors qu'un LVM traite uniquement les données visuelles (pixels), un VLM intègre à la fois du texte et des images, ce qui permet aux utilisateurs de poser des questions en langage naturel sur une image ou de recevoir des descriptions textuelles d'une vidéo.
  • LVM vs. Modèle linguistique à grande échelle (LLM): Les LLM sont entraînés exclusivement sur des données textuelles afin de comprendre et de générer du langage humain. Un LVM effectue les mêmes opérations de mise à l'échelle et de compréhension, mais strictement pour les données visuelles.

Utilisation des modèles de vision

Alors que les LVM de grande envergure nécessitent souvent des clusters de serveurs exécutant PyTorch ou TensorFlow, des modèles de vision de base hautement optimisés tels Ultralytics apportent une intelligence visuelle puissante et de pointe directement aux environnements périphériques locaux. L’exemple suivant montre comment effectuer une inférence visuelle robuste à l’aide d’un modèle pré-entraîné :

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

L'avenir de l'intelligence visuelle

La transition entre la recherche universitaire publiée sur arXiv et la bibliothèque numérique IEEE Xplore et son application concrète en entreprise s' accélère rapidement. Les innovations issues de groupes de recherche tels que Google étendent activement les modèles de mémoire de langage (LVM) au domaine temporel, permettant ainsi aux modèles de comprendre des séquences vidéo complexes, à l'instar des générations observées dans Sora d'OpenAI.

Pour les développeurs et les entreprises qui souhaitent créer des solutions d’IA visuelle sur mesure, la Ultralytics propose des outils intuitifs pour l’annotation collaborative des ensembles de données, l’entraînement dans le cloud et le déploiement simplifié des modèles, rendant ainsi les capacités avancées de vision artificielle accessibles à tous. De plus, des outils de segmentation « zero-shot » tels que Segment Anything 2 (SAM )de Meta montrent comment les approches fondamentales de la vision à grande échelle — souvent détaillées dans l’ ACM Digital Library— standardisent la compréhension complexe au niveau du pixel dans l’ ensemble du secteur de l’IA.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique