Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles à grande échelle (LAM)

Découvrez les modèles d'action à grande échelle (LAM) et leur rôle dans le pilotage d'agents IA autonomes. Apprenez à intégrer Ultralytics pour mettre en place des flux de travail « de la vision à l'action » et automatiser des tâches.

Les modèles d'action à grande échelle (LAM) constituent une catégorie avancée d'intelligence artificielle générative conçue pour aller au-delà de la génération de texte en exécutant de manière autonome des tâches et en interagissant avec des environnements numériques. Contrairement aux modèles traditionnels qui se contentent de traiter et de produire du texte, les LAM agissent comme le moteur cognitif central des agents IA, traduisant l'intention humaine en actions concrètes en plusieurs étapes. En comblant le fossé entre la compréhension du langage naturel et l'exécution dans le monde réel, ces modèles représentent un bond en avant significatif vers l'intelligence artificielle générale (AGI) et les systèmes hautement autonomes.

Comment fonctionnent les modèles d'action à grande échelle

Les LAM s'appuient sur l'architecture de base des modèles de fondation traditionnels, mais ils sont spécifiquement entraînés pour interagir avec des logiciels, des API et des environnements web. Grâce à des techniques telles que l'apprentissage par renforcement et l'appel de fonctions, un LAM peut décomposer une requête utilisateur complexe en étapes logiques, naviguer dans des interfaces utilisateur graphiques et exécuter des points de terminaison d'API. Par exemple, les développements récents de l'utilisation informatiqueAnthropic Claude 3.5Anthropic et de la famille xLAM de Salesforce démontrent comment ces systèmes peuvent cliquer sur des boutons, remplir des formulaires et gérer des flux de travail de manière autonome, tout comme le ferait un opérateur humain.

Associés à des systèmes de vision par ordinateur, les LAM gagnent encore en puissance. Les données visuelles peuvent être traitées par des modèles hautement efficaces tels que Ultralytics , ce qui permet au LAM de « voir » son environnement, d'interpréter le contexte visuel et de déclencher des actions programmatiques spécifiques en fonction de ce qu'il détecte.

Applications concrètes

Les LAM révolutionnent la manière dont les industries abordent l'automatisation des tâches, passant d'une assistance passive à une exécution active.

  • L'IA dans le commerce de détail et le service client : Au lieu de se contenter de répondre aux questions des clients, un modèle d'IA de conversation (LAM) peut traiter de manière autonome un retour de produit. Si un utilisateur demande à annuler une commande, le modèle peut naviguer dans le logiciel de facturation de l'entreprise, vérifier la politique en vigueur, effectuer le remboursement et mettre à jour la base de données des stocks sans intervention humaine.
  • L'IA dans l'administrationdes soins de santé: En milieu clinique, les LAM coordonnent des flux de travail complexes. Ils peuvent extraire les demandes des patients, vérifier la disponibilité des médecins, mettre à jour automatiquement les dossiers médicaux électroniques (DME) via des logiciels médicaux internes et finaliser la prise de rendez-vous.

Automatisation des flux de travail de vision par le code

Les LAM sont souvent intégrés à des modèles de vision pour automatiser les inspections visuelles. Python suivant montre comment un flux de travail LAM hypothétique pourrait tirer parti ultralytics pour numériser une image et déclencher une action d'inventaire automatisée en fonction de la détection d'objets les résultats.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

Les utilisateurs peuvent déployer et surveiller ce type de flux de travail intégrés associant vision et action en toute transparence grâce à la Ultralytics , qui offre une infrastructure cloud robuste pour les solutions d'IA modernes.

Distinguer les concepts apparentés

Pour bien comprendre le paysage actuel de l'IA, il est utile de distinguer les LAM des autres termes étroitement liés :

  • LAM vs. Modèle linguistique à grande échelle (LLM): Un LLM est strictement conçu pour traiter, résumer et générer du langage, à l'instar d'un système de prédiction de texte très sophistiqué. Un LAM intègre cette compréhension du langage, mais est spécialement conçu pour interagir avec des outils externes et effectuer des actions numériques.
  • LAM vs. IA agentique : le terme « IA agentique » désigne le système global ou l'entité logicielle qui fonctionne de manière autonome. Le Large Action Model est le réseau neuronal sous-jacent — le « cerveau » — qui confère à l' agent sa capacité à planifier et à exécuter ces actions.
  • LAM vs. Agentic RAG: Agentic RAG se concentre sur la récupération et la synthèse autonomes d'informations externes afin d'améliorer la précision d'une réponse générée. Un LAM se concentre sur la manipulation de systèmes et la modification d'états (comme la réservation d'un vol ou le déplacement de fichiers) plutôt que sur la simple récupération de données.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique