Découvrez les modèles d'action à grande échelle (LAM) et leur rôle dans le pilotage d'agents IA autonomes. Apprenez à intégrer Ultralytics pour mettre en place des flux de travail « de la vision à l'action » et automatiser des tâches.
Les modèles d'action à grande échelle (LAM) constituent une catégorie avancée d'intelligence artificielle générative conçue pour aller au-delà de la génération de texte en exécutant de manière autonome des tâches et en interagissant avec des environnements numériques. Contrairement aux modèles traditionnels qui se contentent de traiter et de produire du texte, les LAM agissent comme le moteur cognitif central des agents IA, traduisant l'intention humaine en actions concrètes en plusieurs étapes. En comblant le fossé entre la compréhension du langage naturel et l'exécution dans le monde réel, ces modèles représentent un bond en avant significatif vers l'intelligence artificielle générale (AGI) et les systèmes hautement autonomes.
Les LAM s'appuient sur l'architecture de base des modèles de fondation traditionnels, mais ils sont spécifiquement entraînés pour interagir avec des logiciels, des API et des environnements web. Grâce à des techniques telles que l'apprentissage par renforcement et l'appel de fonctions, un LAM peut décomposer une requête utilisateur complexe en étapes logiques, naviguer dans des interfaces utilisateur graphiques et exécuter des points de terminaison d'API. Par exemple, les développements récents de l'utilisation informatiqueAnthropic Claude 3.5Anthropic et de la famille xLAM de Salesforce démontrent comment ces systèmes peuvent cliquer sur des boutons, remplir des formulaires et gérer des flux de travail de manière autonome, tout comme le ferait un opérateur humain.
Associés à des systèmes de vision par ordinateur, les LAM gagnent encore en puissance. Les données visuelles peuvent être traitées par des modèles hautement efficaces tels que Ultralytics , ce qui permet au LAM de « voir » son environnement, d'interpréter le contexte visuel et de déclencher des actions programmatiques spécifiques en fonction de ce qu'il détecte.
Les LAM révolutionnent la manière dont les industries abordent l'automatisation des tâches, passant d'une assistance passive à une exécution active.
Les LAM sont souvent intégrés à des modèles de vision pour automatiser les inspections visuelles. Python suivant
montre comment un flux de travail LAM hypothétique pourrait tirer parti ultralytics pour numériser une image et déclencher une
action d'inventaire automatisée en fonction de la
détection d'objets les résultats.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")
Les utilisateurs peuvent déployer et surveiller ce type de flux de travail intégrés associant vision et action en toute transparence grâce à la Ultralytics , qui offre une infrastructure cloud robuste pour les solutions d'IA modernes.
Pour bien comprendre le paysage actuel de l'IA, il est utile de distinguer les LAM des autres termes étroitement liés :
Commencez votre parcours avec l'avenir de l'apprentissage automatique