Large Action Models (LAM)
Explore les Large Action Models (LAM) et comment ils pilotent les agents IA autonomes. Apprends à intégrer Ultralytics YOLO26 pour des flux de travail vision-vers-action et l'automatisation des tâches.
Les Large Action Models (LAM) constituent une classe avancée d'intelligence artificielle générative conçue pour aller au-delà de la simple génération de texte en exécutant des tâches de manière autonome et en interagissant avec des environnements numériques. Contrairement aux modèles traditionnels qui traitent et produisent strictement du texte, les LAM servent de moteur cognitif principal pour les AI agents, traduisant l'intention humaine en actions concrètes et en plusieurs étapes. En comblant le fossé entre la compréhension du langage naturel et l'exécution dans le monde réel, ces modèles représentent un bond significatif vers l'Artificial General Intelligence (AGI) et les systèmes hautement autonomes.
Link to this sectionComment fonctionnent les Large Action Models#
Les LAM s'appuient sur l'architecture fondamentale des foundation models, mais ils sont spécifiquement entraînés pour interagir avec des logiciels, des API et des environnements web. En utilisant des techniques comme le reinforcement learning et l'appel de fonctions, un LAM peut décomposer une requête utilisateur complexe en étapes logiques, naviguer dans des interfaces graphiques utilisateur et exécuter des points de terminaison d'API. Par exemple, les développements récents de Anthropic's Claude 3.5 computer use et de la famille Salesforce's xLAM family démontrent comment ces systèmes peuvent cliquer de manière autonome sur des boutons, remplir des formulaires et gérer des flux de travail comme le ferait un opérateur humain.
Lorsqu'ils sont couplés à des systèmes de computer vision, les LAM deviennent encore plus puissants. Les entrées visuelles peuvent être traitées par des modèles hautement efficaces comme Ultralytics YOLO26, permettant au LAM de "voir" son environnement, d'interpréter le contexte visuel et de déclencher des actions programmatiques spécifiques basées sur ce qu'il détecte.
Link to this sectionApplications concrètes#
Les LAM transforment la manière dont les industries abordent l'automatisation des tâches, passant d'une assistance passive à une exécution active.
- AI in Retail et support client : Au lieu de simplement répondre aux questions des clients, un LAM peut traiter de manière autonome un retour de produit. Si un utilisateur demande à annuler une commande, le modèle peut naviguer dans le logiciel de facturation de l'entreprise, vérifier la politique, émettre le remboursement et mettre à jour la base de données d'inventaire sans intervention humaine.
- AI in Healthcare Administration : Dans les environnements cliniques, les LAM coordonnent des flux de travail complexes. Ils peuvent extraire les demandes des patients, vérifier la disponibilité des médecins, mettre à jour automatiquement les dossiers de santé électroniques (EHR) via un logiciel médical interne et finaliser la planification des rendez-vous.
Link to this sectionAutomatiser les flux de travail de vision avec du code#
Les LAM sont fréquemment intégrés avec des modèles de vision pour automatiser les inspections visuelles. L'exemple Python suivant démontre comment un flux de travail LAM hypothétique pourrait tirer parti de ultralytics pour scanner une image et déclencher une action d'inventaire automatisée basée sur les résultats de object detection.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")Tu peux déployer et surveiller ces types de flux de travail intégrés vision-action de manière transparente en utilisant la Ultralytics Platform, qui fournit une infrastructure cloud robuste pour les solutions IA modernes.
Link to this sectionDistinguer les concepts apparentés#
Pour saisir pleinement le paysage actuel de l'IA, il est utile de distinguer les LAM d'autres termes étroitement liés :
- LAM vs Large Language Model (LLM) : Un LLM est strictement conçu pour traiter, résumer et générer du langage, un peu comme un prédicteur de texte hautement avancé. Un LAM intègre cette compréhension du langage mais est spécifiquement conçu pour interagir avec des outils externes et accomplir des actions numériques.
- LAM vs Agentic AI : "Agentic AI" décrit le système global ou l'entité logicielle qui opère de manière autonome. Le Large Action Model est le réseau neuronal sous-jacent — le "cerveau" — qui donne à l'agent sa capacité à planifier et à exécuter ces actions.
- LAM vs Agentic RAG : L'Agentic RAG se concentre sur la récupération et la synthèse autonomes d'informations externes pour améliorer la précision d'une réponse générée. Un LAM se concentre sur la manipulation de systèmes et le changement d'états (comme réserver un vol ou déplacer des fichiers) plutôt que sur la simple récupération de données.






